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法 。 主 要 内 容 包 括 图 像 目 标的 特征 
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图 像 目标 的 表示 与 识别 作为 图 像 处 理 与 模式 识别 领域 的 一 个 重要 的 研究 方 
向 ， 在 安全 监控 、 军 事 侦察 、 产 品 检验 、 人 机 交互 、 医 疗 诊断 等 方面 得 到 了 越 
来 越 广泛 的 应 用 。 但 目前 尚未 形成 一 个 成 熟 统 一 的 技术 方案 ， 往 往 需要 针对 特 
定 的 任务 ,甚至 针对 特定 的 图 像 ， 选 用 一 种 或 几 种 不 同 的 方法 。 而 相关 领域 所 
数学 算法 和 具体 技术 林林总总 各 不 相同 ， 甚 至 从 思路 上 就 已 经 大 相 径 庭 ， 这 更 
需要 我 们 下 工夫 进行 梳理 和 提炼 。 

本 书 围绕 着 图 像 目 标的 表示 与 识别 这 一 主题 ， 全 面 系 统 地 介绍 了 相关 的 概 
念 、 原 理 和 技术 方法 。 针 对 可 见 光 图 像 和 刚性 目标 ， 学 习 并 借鉴 了 图 像 工 程 、 
模式 识别 、 机 需 视 觉 和 人 工 智能 学 科 中 一 些 先 进 技 术 ， 探讨 了 复杂 背景 下 的 目 
标识 别 以 及 局 部 遮挡 物体 的 识别 中 的 关键 问题 ,为 增强 现 有 图 像 识 别 系统 的 自 
动 化 程度 和 信息 处 理 能 力 提 供 理 论 支 持 和 技术 帮助 。 

本 书 分 为 7 章 ， 内 容 安排 如 下 : 

第 1 章 概述 了 图 像 目 标识 别 的 基础 理论 和 研究 思路 ， 介 绍 了 图 像 目 标识 别 
篆 用 的 图 像 库 ， 指 出 了 图 像 目 标识 别 的 主要 难点 和 发 展 趋势 ; 第 2 章 讨论 了 图 
像 分 割 和 目标 分 割 的 关系 ,介绍 了 提取 目标 整体 特征 的 相关 技术 ; 第 3 章 介绍 
了 目标 匹配 和 目标 分 类 的 基本 理论 ,详细 论述 了 常用 的 图 像 目 标 分 类 器 的 设 
计 和 训练 方法 ; 第 4 章 回 顾 了 局 部 特征 的 研究 现状 ， 给 出 了 几 种 典型 区 域 检测 
算 子 和 特征 描述 子 的 具体 算法 和 改进 方法 ; 第 5 章 针 对 局 部 特征 匹配 在 目标 图 
像 拼 接 和 图 像 检 索 中 应 用 的 不 足 ， 提 出 了 基于 多 分 辩 率 技术 的 航拍 图 像 拼接 方 
法 ， 以 及 基于 原型 匹配 的 图 像 检 索 方 法 ; 第 6 章 曾 述 了 视觉 单词 的 理论 依据 以 
及 视觉 单词 库 特 征 库 构 造 方法 ， 结 合 信息 论 的 相关 技术 进行 特征 选择 ， 提 出 了 
一 种 基于 局 部 特征 的 目标 分 类 方法 ; 第 7 章 结合 主 分 量 法 和 Hausdorff 距离 ， 提 
出 了 一 种 在 视点 变化 下 目标 匹配 识别 方法 和 基于 角 点 标记 图 的 BP 网 络 分 类 
方法 。 

本 书 的 研究 成 果 首 先 要 感谢 北京 理工 大 学 计算 机 学 院 的 刘 玉 树 教授 等 多 位 
老师 给 予 作者 的 长 期 指导 和 教诲 ， 还 要 感谢 众多 师兄 弟 和 一 些 硕士 研究 生 在 作 
者 攻读 博士 学 位 期 间 给 予 的 启发 与 激励 ， 更 要 感谢 北京 工商 大 学 计算 机 与 信息 
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1.1 引言 





视觉 是 人 类 获取 信息 、 感 知 世 界 ， 进 而 改造 世界 的 一 个 重要 途径 。 有 资料 
显示 ， 人 类 接受 到 的 外 界 信息 中 约 有 60% 以 上 来 自 于 视觉 ,而 听觉 、 味 觉 、 触 
觉 、 嗅 觉 总 共 占 不 到 40% 。 但 是 从 技术 发 展 来 看 ， 图 像 信息 的 处 理 远 远 滞 后 于 
语音 信息 ， 随 着 计算 能 力 的 不 断 提 高 ， 如 何 使 计算 机 具有 和 生物 类 似 的 视觉 感 
知 功能 成 为 目前 计算 机 领域 中 的 一 个 研究 热点 。 

图 像 目 标的 表示 与 识别 ， 又 称 关 于 视觉 图 像 的 模式 识别 ， 旨 在 利用 图 像 处 
理 与 模式 识别 等 领域 的 理论 和 方法 ， 确 定 图 像 中 是 否 存在 感 兴趣 的 目标 ， 如 果 
存在 则 为 目标 赋予 合理 的 解释 ， 必 要 时 还 要 确定 其 位 置 …;  。 虽 然 国 内 外 科研 工 
作者 就 如 何在 复杂 环境 下 检测 、 辩 识 和 准确 跟踪 目标 进行 了 理论 分 析 和 实践 探 
索 ， 但 目前 尚未 形成 一 个 成 熟 统一 的 技术 方案 ， 往 往 需要 针对 特定 的 任务 ， 甚 
至 针对 特定 的 图 像 ， 选 用 一 种 或 几 种 不 同 的 方法 。 而 相关 领域 的 数学 算法 和 具 
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体 技 术 林林总总 各 不 相同 ， 甚 至 从 思路 上 已 经 大 相 径 庭 ， 这 更 需要 我 们 下 工夫 
进行 梳理 和 提炼 。 

在 这 里 ,识别 (Recognition) 、 分 类 (Classification) 、 检 测 (Detection) 、 定 
{ii (Location) 和 鉴别 (Identification) 几 个 概念 需要 简要 说 明 一 下 。 从 上 面 的 定 
义 可 以 看 出 ， 识 别 的 内 涵 最 为 宽泛 ， 分 类 、 检 测 、 定 位 、 鉴 别 都 能 看 做 是 识别 
的 子 任务 之 一 ; 分 类 的 定义 比较 清晰 ， 即 对 图 像 目标 按照 类 别 标签 进行 划分 ; 
检测 和 定位 的 目的 是 相似 的 ， 一 般 是 确定 图 像 中 某 个 目标 的 具体 位 置 ; 鉴别 往 
往 指 同类 目标 间 的 区 分 ， 如 对 人 物 张 三 和 人 物 李 四 进行 辨认 。 虽 然 这 几 个 概念 
在 不 同 的 文献 中 稍 有 差异 ， 本 书 中 对 它们 的 解释 也 并 不 唯一 ， 然 而 把 握 好 它们 
在 具体 问题 中 的 界定 ， 还 是 有 助 于 加 深 对 图 像 识 别 领域 中 实际 问题 的 理解 。 





























1.2 图 像 目 标识 别 的 意义 


近年 来 ， 许 多 重要 的 国际 期 刊 (IEEE Transactions on Pattern Analysis and 


Machine Intelligence, IEEE Transactions on Image Processing, IEEE Transactions on 





Medical Imaging, IEEE Transactions on Vehicular Technology , International Journal of 
Computer Vision, Computer Vision and Image Understanding, Image and Vision Com- 
puting, Pattern Recognition, Pattern Recognition Letters, Machine Vision and Applica- 
tion 等 ) 以 及 重要 的 国内 期 刊 〈 计 算 机 学 报 、 软 件 学 报 、 自 动 化 学 报 、 机 器 人 、 
模式 识别 与 人 工 智 能 、 计 算 机 研究 与 发 展 等 ) 都 发 表 了 大 量 关 于 图 像 模 式 识别 
方面 的 论文 。 在 国外 召开 的 顶级 国际 会 议 ， 如 IEEE 国际 计算 机 视觉 与 模式 识别 
(Computer Vision and Pattern Recognition, CVPR) 会 议 、 欧 洲 计 算 机 视觉 会 议 
(European Conference on Computer Vision, ECCV) 、 国 际 信息 处 理会 议 ( Interna- 
tional Conference on Information Processing, ICIP) 等 ， 也 收录 了 许多 知名 学 者 在 
相关 领域 的 学 术 成 果 。 这 几 年 ， 国 内 学 术 界 积极 开展 了 一 系列 的 学 术 交 流 活 动 ， 
比如 2005 年 在 北京 举办 的 国际 计算 机 可 视 化 会 议 (International Conference on 
Computer Vision，ICCV) 、2006 年 在 香港 特别 行政 区 举办 的 第 18 届 模 式 识 别 会 
议 (International Conference on Pattern Recognition, ICPR) 、2008 年 全 国 模式 识别 
学 术 会 议 、2009 年 在 西安 举办 的 第 9 届 亚 洲 计算 机 可 视 化 会 议 (Asian Confer- 
ence on Computer Vision，ACCV) 等 。 

图 像 目 标的 表示 与 识别 之 所 以 备 受 关注 ， 是 由 于 它 能 够 广泛 应 用 于 国防 和 
民用 的 许多 领域 ， 其 中 包括 安全 监控 、 军 事 侦察 、 产 品 检验 、 人 机 交互 和 医学 
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应 用 等 多 个 方面 。 

1. 安全 监控 

图 像 目标 识别 在 安全 领域 的 应 用 范围 非常 广泛 ， 大 城市 很 多 地 方 ， 如 民宅 、 
停车 场 、 银 行 等 ， 都 装 有 闭路 电视 监控 系统 (Close Circuit TV) ， 以 便 能 够 对 可 
疑 的 物品 和 人 员 进 行 有 效 的 监控 。 而 随 着 各 种 新 的 DNA 分 析 、 分 型 技术 方法 的 
建立 ,借助 多 模 态 的 生物 特征 辨识 系统 ， 法 医 DNA 分 析 技 术 可 将 从 犯罪 现场 提 
取 的 DNA 轮廓 (手掌 的 纹理 、 指 纹 、 脸 的 几何 形状 ) 与 疑犯 的 DNA 信息 进行 
更 准确 、 快 速 、 自 动 的 匹配 。2004 年 ， 根 据 市 场 研 究 公 司 一 一 国际 生物 测定 组 
的 分 析 ， 在 人 们 首选 的 在 线 银行 认证 方法 中 ， 选 择 生物 特征 辨识 的 占 了 50% , 
智能 卡 、 密 码 、 身 份 证 号 码 等 方式 的 总 和 。 

在 交通 系统 中 除了 视频 摄像 外 ， 还 需要 大 量 的 识别 监视 跟踪 系统 。 例 如 ， 
目前 的 车 牌 识 别 技术 已 经 非常 成 熟 ， 这 对 道路 上 异常 车 辆 的 监控 和 交通 事故 的 
事后 处 理 都 具有 非常 重要 的 意义 。 西 门 子 公司 的 交通 监控 性 能 非常 优越 ， 不 仅 
能 探测 隧道 中 慢 行 或 停止 的 汽车 ， 还 可 探测 处 于 U 形 转弯 处 的 违规 汽车 ， 以 及 
自动 检测 可 疑 的 行李 。 管 能 车 辆 的 最 终 目 的 是 实现 车 辆 的 自动 驾 怠 ， 目 前 主要 
是 利用 车 上 安装 的 摄像 机 、 雷 达 等 传感器 设备 进行 道路 检测 并 识别 前 方 的 障碍 
物 (如 车 辆 、 行 人 )， 以 保证 车 辆 的 安全 行驶 。 

2. 军事 侦察 

相对 而 言 ， 军 事 领 域 的 识别 与 监测 要 求 就 非常 苛刻 了 ， 主 要 是 因为 战场 环境 
要 比 一 般 的 民用 环境 更 为 复杂 。 例 如 ， 检 测 有 闭 挡 和 伪装 的 机 动 目标 就 十 分 困难 ， 
由 于 假设 的 局 限 性 ， 在 民用 上 已 经 比较 成 熟 的 算法 在 军事 上 往往 效果 很 不 理想 。 
美国 洛克 和 希 德 ， 马丁 公 司 开发 的 数字 式 侦察 图 像 处 理 系 统 已 安装 到 尼 米 效 级 航空 
母 舰 上 ， 成 为 美国 海军 联合 部 队 图 像 处理 系 统 (JSIPS-N) 的 战术 组 成 部 分 ， 它 能 
接受 和 处 理 来 自 多 个 传 感 需 平台 (U-2、“ 全 球 应 ”无 人 机 、FAA-18 共享 侦查 吊 
舱 等 ) 的 图 像 ， 极 大 增强 了 美国 海军 识别 和 打击 关键 目标 的 能 力 。2006 年 6 月 以 
色 列 IAI 公司 在 巴黎 展示 了 其 一 元 化 的 战争 指挥 室 ， 其 中 实时 图 像 情 报 中 心 
( EL/S- 8894RT- RiCENT ) 具有 对 战场 全 天 候 一 体 化 的 监视 和 侦察 能 

3. 产品 检验 

由 于 工业 环境 的 结构 、 照 明 等 因素 可 以 得 到 严格 的 控制 ， 图 像 目 标识 别 在 
工业 生产 和 装配 中 得 到 了 成 功 的 应 用 。 一 个 具有 简单 视觉 感知 功能 的 自动 化 生 
产 线 包含 一 个 摄像 机 和 相关 的 信息 处 理 系统 ， 通 过 摄像 机 对 零件 进行 识别 和 征 
位 ， 为 机 器 人 提供 是 否 操作 或 进行 何 种 操作 的 信息 ， 并 引导 机 器 人 手臂 实时 准 
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确 地 夹 取 零件 ， 此 外 ， 图 像 识别 技术 已 经 应 用 在 集成 电路 设计 、 图 形 设 计 和 电 
视 电 影 制作 中 ; 通过 多 源 图 像 融 合 ， 可 以 进行 产品 外 形 检验 、 表 面 缺 陷 检验 ， 
加 强 对 产品 质量 的 严格 把 关 。 

对 多 个 摄像 机 的 图 像 同步 识别 处 理 ， 利 用 某 一 时 刻 关 于 某 个 目标 的 不 同 角 
度 的 图 像 可 以 恢复 场景 的 三 维 信息 ， 并 依据 三 维 信息 做 出 决断 ， 实 现 即时 规划 、 
自主 导航 、 与 周围 环境 实时 交互 作用 等 。 这 是 生产 控制 的 进一步 发 展 ， 让 机 器 
人 不 仅仅 停留 在 简单 的 自动 化 生产 线 上 ， 而 且 能 够 代替 人 类 进入 危险 的 环境 进 
行 生 产 活 动 ， 例 如 ， 在 核 辐 射 区 或 火灾 现场 抢修 设备 ， 远 程控 制 的 无 人 开采 矿 
藏 、 星 际 探测 设备 的 自主 导航 等 。 

4. 人 机 交互 

对 包含 文字 和 符号 的 图 像 进行 识别 可 以 让 人 与 计算 机 的 交互 更 加 便捷 。 目 
前 这 方面 的 技术 大 量 应 用 于 信函 分 撕 、 稿 件 输入 、 文 票 查 对 、 期 刊 阅读 和 自动 
排版 中 ， 而 超市 的 条 码 阅 读 器 更 是 对 销售 管理 的 一 场 革 命 。 现 在 美国 和 日 本 的 
客户 已 经 能 够 通过 把 他 们 的 手机 指向 汉堡 包 的 包装 纸 ， 获 得 其 营养 信息 并 显示 
在 屏幕 上 ， 也 可 以 通过 这 种 方式 获得 商品 报价 。 例 如 ， 在 日 本 东京 的 一 座 建筑 
物 上 粘贴 的 超 高 速 识 读 条 码 (Quick Response Code，QReode) 就 含有 很 多 信息 ， 
通过 带 有 摄像 头 的 可 正确 编译 的 手机 就 能 方便 地 读 取 。 

面部 表情 传达 了 一 种 非 口头 性 的 暗示 ， 对 其 进行 自动 识别 是 人 机 接口 的 重 
要 元 素 ， 也 被 用 于 行为 科学 和 临床 实践 中 。 比 如 ， 具 有 微笑 探测 和 了 瞬 眼 探测 的 
两 个 功能 独立 的 数字 照相 机 可 以 在 恰当 的 时 机 (用 户 微笑 的 时 候 或 电眼 之 后 ) 
捕捉 到 主体 ， 并 提示 用 户 ， 进 行 抓拍 。 手 势 识别 也 称 手语 识别 ， 是 机 器 视觉 领 
域 中 比较 前 沿 的 研究 领域 。 当 用 户 做 出 一 个 手势 ， 摄 像 机 (一般 为 双 目 或 三 目 ) 
将 图 像 传送 到 计算 机 ， 然 后 由 特定 软件 结合 视差 来 提取 手 辟 、 手 指 等 三 维特 征 ， 
完成 这 些 特 征 的 进一步 识别 ， 最 后 对 这 个 手势 做 出 响应 |。 

5. 医学 应 用 

如 今 ， 计 算 机 图 像 分 析 逐 步 融 入 到 了 医疗 诊断 的 过 程 中 ， 这 就 促 生 了 计算 
机 辅助 诊断 (Computer- Assisted Diagnosis, CAD) 技术 。 利 用 该 技术 ， 可 进行 核 
磁 共 振 成 像 (主要 用 于 医疗 成 像 来 可 视 化 人 体 结构 和 功能 ， 提 供 任何 平面 内 身 
体 的 细节 图 像 )， 癌 细胞 、 白 细胞 、 染 色 体 检查 ， 修 复 手术 控制 设计 等 。 
通过 一 组 切片 图 像 进 行人 体 器 官 的 三 维 重 构 ， 可 以 为 医疗 诊断 和 病理 分 析 
提供 重要 和 直观 的 帮助 。 同 样 ， 可 以 根据 图 像 序 列 中 的 信息 对 普通 目标 进行 三 
维 重 构 ， 无 论 观察 点 在 何 处 ， 都 能 利用 其 三 维 信息 进行 识别 ， 这 也 为 解决 视点 











































































































变化 下 的 目标 识别 提供 了 一 个 思路 。 

除了 以 上 几 个 方面 ,图像 目标 识别 在 生产 生活 中 还 有 很 多 应 用 。 对 目标 描述 
信息 的 分 析 处 理 ， 可 以 用 在 天 气 预 报 、 和 森林 火灾 及 地 质 灾 害 监 测 、 空 气 污染 预报 
等 领域 。 人 脸 检 测 (Facial Detection) 技术 可 以 将 画面 及 时 地 锁定 在 讲话 人 身上 ， 
这 样 就 很 大 程度 地 降低 了 远程 电视 会 议 的 图 像 传输 比率 ” 。 在 虚拟 现实 、 计 算 机 
动画 、 视 频 评 注 等 应 用 领域 ， 目 标识 别 技术 同样 也 发 挥 着 不 可 替代 的 作用 。 所 以 ， 
开展 图 像 目标 识别 研究 意义 重大 ， 其 研究 成 果 具 有 非常 广阔 的 应 用 前 景 。 


1.3 图 像 目 标识 别 的 框架 与 思 





1.3.1 图 像 目标 识别 问题 的 分 类 


针对 图 像 领域 中 的 各 种 具体 问题 ， 目 标识 别 所 采用 的 研究 方法 和 技术 方案 
都 有 所 区 别 ， 甚 至 过 然 不 同 。 所 以 需要 将 目标 识别 问题 按照 一 定 的 标准 进行 分 
类 ， 对 具体 问题 进行 具体 分 析 。 

1. 按照 获取 图 像 的 传感器 的 种 类 

按照 获取 图 像 的 传感器 的 种 类 ， 可 以 将 图 像 目 标识 别 分 为 可 见 光 图 像 目 标 
识别 ， 红 外 图 像 目 标识 别 和 合成 孔径 雷达 (Synthetic Aperture Radar, SAR) 图 
像 目 标识 别 。 这 三 种 传感器 的 成 像 原理 不 同 ， 对 拍摄 时 间 、 天 气 情 况 、 地 理 环 
境 、 光 照 的 要 求 也 不 一 样 。 通 常 条 件 下 ， 可 见 光 图 像 比较 清晰 、 直 观 、 费 用 低 ， 
有 利于 实时 传输 ,但 可 见 光 传感器 只 敏感 于 目标 场景 的 可 见 光 反射 ， 容 易 受 到 
各 种 场地 因素 的 干扰 ; 红外 图 像 六 适合 夜间 使 用 ， 具 有 特殊 的 识别 伪装 的 能 
但 图 像 清 晰 度 低 ， 且 大 气 红外 辐射 和 吸收 作用 对 图 像 质 量 影响 很 大 ; 合成 孔径 
SERO 易于 判读 线性 地 物 、 表 面 光滑 的 面 状 地 物 、 森 林 、 草 地 、 水 体 等 ， 
具有 很 强 的 穿 透 力 ， 但 雷达 视 向 对 目标 的 表达 色调 和 形状 影响 很 大 。 目 前 ， 国 
外 先进 的 无 人 侦察 平台 都 采用 多 种 传感器 成 像 技术 ， 并 通过 图 像 融合 得 到 了 信 
息 更 为 丰富 的 图 像 。 

2. 按照 图 像 背 景 的 复杂 程度 

按照 图 像 背 景 的 复杂 程度 ， 可 以 分 为 简单 背景 下 的 目标 识别 和 复杂 背景 下 
的 目标 识别 。 简 单 背 景 下 的 目标 识别 ， 如 文字 识别 、 符 号 识别 和 人 脸 识 别 等 ， 
目标 和 背景 的 对 比 度 非常 大 , 一般 的 图 像 处 理 和 分 割 算法 就 能 准确 完整 地 提取 
出 目标 。 此 类 研究 侧重 于 如 何 辨 识 出 更 加 细微 的 区 别 , 或 者 对 目标 的 不 同 姿态 
进行 识别 。 而 在 复杂 背景 下 进行 图 像 目 标识 别 受到 噪声 的 影响 非常 大 ， 目 标的 
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检测 效果 往往 差强人意 ， 要 想 提 取出 完整 的 目标 更 是 困难 ， 一 般 需 要 在 先 验 知 
识 的 指导 下 进行 目标 的 检测 和 图 像 的 分 割 。 

3. 按照 相关 图 像 的 性 质 

按照 相关 图 像 的 性 质 ， 可 以 分 为 静态 图 像 识 别 和 动态 图 像 识 别 。 静 态 图 像 ， 
也 称 静 止 图 像 ， 指 的 是 关于 目标 的 单 幅 图 像 ， 我 们 一 般 的 图 像 检索 和 图 像 分 类 
大 都 是 针对 这 类 图 像 的 。 而 动态 图 像 为 我 们 提供 了 比 静 态 图 像 更 为 丰富 的 信息 ， 
通过 对 多 帧 动态 图 像 ( 图像 序列 ) 的 分 析 ， 可 以 检测 出 目标 的 运动 信息 ， 识 别 
与 跟踪 运动 目标 和 估计 三 维 运动 及 结构 参数 。 动 态 图 像 识 别 面临 的 首要 挑战 是 ， 
如 何 从 图 像 序 列 中 实现 有 效 的 图 像 分 割 和 图 像 对 应 。 图 像 分 割 在 静态 图 像 识 别 
领域 也 尚未 得 到 有 效 解 决 ， 图 像 对 应 问题 则 是 与 模式 识别 和 人 工 智 能 紧密 相连 
的 难题 。 

4. 按照 图 像 中 目标 的 数目 

按照 图 像 中 目标 的 数目 ， 可 以 分 为 单 目 标识 别 和 多 目标 识别 。 单 目标 的 图 
像 ， 顾名思义 ， 就 是 只 有 一 个 感 兴趣 的 目标 ， 其 余 属于 背景 ,这 就 相当 于 提供 
了 一 个 重要 的 前 提 。 在 这 个 前 提 下 ， 我们 更 多 关注 的 是 如 何 利用 各 种 图 像 处 理 
技术 抑制 背景 ， 完 整 准确 地 检测 和 提取 出 这 一 个 目标 。 而 多 目标 识别 要 比 单 目 
标识 别 困难 得 多 ， 因 为 多 个 目标 同时 出 现在 一 幅 图 像 中 ,不 光 有 复杂 背景 的 干 
扰 ， 还 必须 考虑 到 目标 之 间 会 相互 遮挡 (Occlusion ) 、 合 并 (Merge) 、 分 离 
(Split) 等 种 种 情况 。 这 更 需要 通过 知识 来 指导 信息 的 选择 和 整合 ， 并 进行 反复 
的 假设 验证 (Hypothesis Verification) 和 复杂 的 反馈 处 理 。 

5. 按照 图 像 中 目标 的 类 型 

按照 图 像 中 目标 的 类 型 ， 可 以 分 为 刚性 目标 识别 和 非 刚 性 目标 识别 。 刚 性 
(Rigid) 目标 一 般 指 具有 刚性 结构 、 不 易 变 形 的 物体 ， 如 飞机 、 车 辆 、 建 筑 物 等 
人 造物 体 ， 它 们 的 共同 特点 是 结构 比较 规范 ， 适 合用 几何 模型 进行 描述 ， 一 般 
采用 基于 形状 特征 的 方法 进行 识别 。 而 非 刚性 (Non-rigid) 是 指 外 形 能 够 变化 
的 物体 ， 如 细胞 、 动 物 、 人 体 等 。 对 这 类 目标 可 以 采用 光谱 特征 、 纹 理 特征 以 
及 变形 模板 (Deformable Template) 技术 等 进行 识别 。 

6. 按照 对 图 像 语 义 的 理解 程度 

按照 对 图 像 语 义 的 理解 程度 ， 可 以 分 为 图 像 分 类 、 目 标 检 测 以 及 目标 识别 。 
图 像 分 类 只 是 根据 低层 图 像 特征 和 相似 度 度量 ， 将 内 容 类 似 的 图 像 归 为 一 类 ， 
并 不 需要 对 图 像 中 的 对 象 进 行 分 割 和 定位 ， 如 基于 内 容 的 图 像 检 索 ; 目标 检测 
不 仅 要 确定 图 像 中 是 否 存在 感 兴趣 的 目标 ， 还 要 在 必要 时 确定 其 位 置 ， 以 便于 
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第 1 章 8 论 7. 


进一步 提取 目标 进行 处 理 ， 如 车 牌 提取 、 人 脸 检测 等 ,具体 目标 的 识别 需要 对 
图 像 信息 进行 深入 分 析 ， 例 如 在 视觉 跟踪 中 ,不 仅 要 检测 出 感 兴趣 的 目标 ， 还 
要 与 周转 其 他 目标 进行 区 分 ， 避 人 免 产 生 混淆 。 


1.3.2 图 像 目 标识 别 的 基本 框架 


一 个 典型 的 图 像 目 标识 别 系统 如 图 1-1 所 示 ， 主 要 由 图 像 增 强 与 变换 (图 
像 预 处 理 ) 、 图 像 分 割 、 图 像 描 述 、 分 类 决策 四 部 分 构成 。 这 四 个 部 分 关系 非常 
密切 ， 在 看 做 一 个 有 机 整体 的 同时 ， 也 可 以 看 成 三 个 层次 的 计算 处 理 一 一 低层 、 
中 层 和 高 层 处 理 。 

低层 是 对 图 像 数 据 进 行 预 处 理 ， 如 对 有 噪声 的 图 像 要 进行 滤波 去 噪 ， 对 信 
息 微弱 的 图 像 要 进行 对 比 度 增强 ， 对 失真 图 像 要 进行 几何 校正 等 ， 以 达到 改善 
图 像 质量 、 突 出 兴趣 区 域 的 目的 。 其 鲜明 的 特点 是 输入 和 输出 的 都 是 图 像 。 

中 层 处 理 涉及 分 割 (把 图 像 分 为 不 同 区 域 或 目标 物 ) ， 将 给 定 图 像 或 已 分 御 
的 图 像 区域 用 更 为 简单 明确 的 数值 、 符 号 或 图 来 表征 (特征 描述 )， 以 使 其 更 适 
合计 算 机 处 理 及 对 不 同 目标 的 分 类 识别)" 。 中 层 处 理 输入 为 图 像 ， 但 输出 的 
是 从 这 些 图 像 中 提取 的 特征 。 

高 层 处 理 一 般 是 基于 知识 进行 推理 和 证 实 的， 涉及 图 像 或 图 像 区 域 的 理解 ， 
以 及 执行 与 视觉 相关 的 识别 函数 ' 引 。 也 可 以 简单 地 认为 是 对 图 像 或 图 像 区 域 进 
行 分 类 和 估计 。 其 输入 是 向 量 、 串 或 树 等 形式 的 特征 描述 ， 输 出 则 是 图 像 或 物 
体 的 类 别 。 


































































































- 图 像 处 理 - 
- 模式 识别 - 
图 像 增强 
ETE 图 像 描述 分 类 决策 
改善 质量 H 5 
输入 图 像 Helios 目标 图 像 XH 目标 类 型 
特征 提取 


图 1-1 图 像 目标 识别 系统 的 基本 框架 图 


图 像 目标 识别 技术 是 延伸 和 扩展 人 的 视觉 功能 的 方式 和 方法 ， 其 实 信 息 技 
术 整 体 都 可 以 认为 是 扩展 人 的 信息 器 官 功 能 的 技术 。 人 的 信息 器 官 主 要 包括 感 
觉 器 官 、 传 导 器 官 、 思 维 咒 官 和 效应 器 官 四 大 类 型 ， 其 功能 主要 是 信息 获取 、 
信息 传输 、 信 息 处 理 和 信息 应 用 ， 因 此 感 测 技术 、 通 信 技 术 、 智 能 技术 与 控制 























“8 图 像 目标 的 表示 与 识别 





技术 被 认为 是 信息 技术 的 四 基 元 ， 其 他 信息 技术 通常 被 看 做 是 这 四 种 基本 技术 
的 高 阶 逻 辑 综 合 或 分 解 衍生 六 。 

如 表 1-1 所 示 ， 我 们 把 图 像 识 别 看 作 图 像 处 理 和 模式 识别 的 交叉 ， 而 这 两 
门 学 科 分 别 属于 信息 处 理 和 计算 智能 两 个 大 的 学 科 门 类 ， 甚 至 还 涉及 信息 传输 
的 一 些 内 容 ， 从 这 个 意义 上 ， 也 看 出 设计 和 执行 算法 来 模仿 人 类 对 物体 的 视觉 
识别 能 力 是 一 项 有 趣 而 富有 挑战 性 的 任务 ， 因 此， 这 门 学 科 不 断 吸 引 了 许多 来 
自 不 同 领域 的 科研 人 员 钻 研 和 探讨 ， 也 不 断 涌现 新 的 理论 和 方法 。 

表 1-1 图 像 识别 在 信息 学 科 中 的 位 置 

























































































信息 器 官 (人 ) 器 官 的 作用 相应 技术 学 科 门 类 研究 方向 (举例 ) 
e . 图 像 处 理 
感觉 器 官 信息 获取 感 测 技术 信息 处 理 
信号 分 析 
信息 编码 
传导 器 官 信息 传输 通信 技术 信息 传输 
信息 安全 
l " i 人 工 智能 
思维 器 官 信息 加 工 智能 技术 计算 智能 s 
模式 识别 
集中 控制 
效应 器 官 信息 应 控制 技术 自动 控制 分 散 控制 
现场 控制 




















13.3 图 像 目标 识别 的 两 种 思 


人 类 认 知 过 程 可 以 用 图 1-2 FRB) 。 不 同 视觉 基本 特征 ， 如 方位 、 方 向 、 
空间 频率 、 眼 优势 、 空 间 拓扑 和 颜色 等 在 不 同 层次 视觉 皮层 具有 一 定 的 空间 组 
织 形 式 ， 多 种 基本 特征 功能 柱 共 存 于 一 片 皮 层 空 间 ， 实 现 多 种 特征 表达 的 最 优 
化 ; 特异 性 反应 细胞 在 高 级 与 初级 视觉 皮层 上 进行 自 下 而 上 的 前 馈 和 自 上 而 下 
的 反馈 ， 完 成 视觉 表征 自 下 而 上 地 逐 级 抽象 ， 以 及 在 整合 后 自 上 而 下 地 反馈 、 
对 初级 水 平 的 调控 ;大脑 自 动 建立 基于 皮层 自 组 织 的 计算 视觉 模型 |。 

对 于 图 像 目 标识 别 问题 的 研究 ， 也 是 遵循 着 人 的 认 知 形式 ， 总 体 上 讲 有 两 
种 思路 ， 一 种 是 自 下 而 上 的 加 工 (Bottom-up Process)， 男 一 种 是 自 上 而 下 的 加 
T. (Top-down Process)! 。 这 两 类 处 理 方法 有 着 各 自 的 优点 和 缺点 ， 将 它们 结 
合 起 来 各 取 所 长 ， 就 有 可 能 实现 更 为 理想 的 识别 。 

1 自 下 而 上 的 加 工 

也 被 称 为 数据 驱动 (Data- driven) 的 加 工 ， 其 核心 观点 是 系统 工作 是 单 向 





























CR. D. 脑 功能 组 织 模式 


| See EOF YEY vas im 


| 人 脸 识别 等 LC aam de wt 7] TE 














图 1-2 人 类 的 认 知 过 程 


的 ， 从 信息 输入 开始 ， 一 直到 形成 最 终 的 解释 。 无 论 在 特定 的 时 刻 发 生 什么 都 
不 受 后 面 加 工 过 程 的 影响 ， 这 种 加 工 系统 无 法 回 到 先前 的 阶段 去 调整 ""。 反 映 
在 图 1-1 上 ,就 是 严格 按照 先后 顺序 ， 从 低层 开始 处 理 图 像 上 的 数据 ， 到 中 层 
处 理 将 这 些 数据 转化 为 抽象 表征 ， 到 高 层 进行 识别 ， 其 间 各 个 模块 互 不 相关 。 

自 下 而 上 的 视觉 计算 理论 中 ， 马 尔 模型 5 显然 最 具 代 表 性 ， 它 在 技术 性 和 
数学 形式 方面 堪 称 精彩 。 马 尔 认 为 ， 视 知觉 是 通过 构建 三 种 不 同心 理 表征 或 素 
描 进行 的 。 首 先是 原始 素描 ， 它 以 二 维 图 像 的 方式 描述 相对 明暗 的 区 域 和 已 经 
固定 位 置 的 几何 结构 ， 使 得 观察 者 能 够 分 辨 不 同 区 域 的 边界 ， 但 无 法 “得 知 ” 
这 些 视觉 信息 的 “涵义 ”"; 然后 建立 一 个 更 为 复杂 的 表征 ， 即 2. 5D RH, WX 
者 利用 阴影 、 纹理 和 边界 等 线索 ， 获 得 关于 该 素描 表面 的 信息 ， 以 及 此 刻 它们 
在 景深 上 与 观察 者 的 相对 位 置 关系 ;马尔 认为 原始 素 措 和 2. 5D 素描 所 依据 的 都 
是 数据 驱动 ， 只 有 在 观察 者 最 后 构建 视觉 场景 的 三 维 素 描 时 ， 有 关 现 实 世 界 或 
特定 期 望 的 信息 〈 知 识 ) 才 会 被 纳入 进来 。 

这 类 方法 的 优点 是 便于 工程 实现 ， 对 单 目标 识别 及 复杂 图 像 分 析 系 统 均 适 
用 ， 具 有 较 强 的 代 换 性 ， 现 有 许多 系统 在 解决 图 像 识别 方面 的 问题 时 都 遵循 这 
一 思路 ;缺点 是 在 分 割 、 标 记 、 特 征 提取 等 处 理 过 程 中 缺乏 知识 指导 ， 育 目 性 
大 ， 因 此 在 很 大 程度 上 局 限 了 该 方法 的 应 用 范围 。 


























" 10 . ”图像 目标 的 表示 与 识别 








2. 自 上 而 下 的 加 工 

又 称 之 为 理论 驱动 (Theory- driven) 或 概念 驱动 (Conceptually Driven) 的 
加 工 ， 知 识 理 论 或 概念 假设 引导 系统 在 识别 过 程 中 的 信息 选择 和 整合 。 其 基本 
思想 是 利用 先 验 知识 为 待 识别 问题 建立 模型 ， 然 后 利用 图 像 数 据 对 模型 的 正确 
性 进行 验证 ， 此 类 方法 有 坚实 的 数学 理论 基础 ， 有 许多 数学 工具 可 以 使 用 ， 因 
此 一 直 是 理论 界 研究 模式 识别 问题 的 主流 方法 。 

先 验 知识 可 以 通过 专家 总 结 、 人 为 定义 来 得 到 ， 有 了 待 识别 目标 的 模型 特 
点 ， 就 可 以 在 图 像 中 进行 有 针对 性 的 检测 和 识别 了 。 这 种 方法 一 般 用 于 线 状 目 
标 和 形状 规则 的 刚性 目标 的 识别 "i ， 如 机 场 、 道 路 、 门 窗 等 。 但 是 人 的 很 多 
先 验 知识 很 难 用 数学 形式 来 表达 ， 所 以 近年 来 随 着 机 器 学 习 技 术 被 大 量 应 用 于 
机 器 视觉 领域 ， 用 统计 学 习 的 方法 获取 隐 含 的 知识 模型 已 经 成 为 了 研究 
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自 上 而 下 的 加 工 方法 ， 其 优点 在 于 底层 处 理 是 在 知识 指导 下 的 粗 匹 配 过 程 ， 
可 避免 抽取 过 多 不 必要 的 特征 集 ， 提 高 算法 的 效率 ， 其 精 匹 配 过 程 也 因而 变 得 
简单 和 有 针对 性 。 它 的 缺点 是 代 换 性 和 兼容 性 差 ， 识 别 目标 改 变 ， 知 识 和 假设 
要 随 之 而 变 。 














1.4 图 像 目 标识 别 的 数据 集 





图 像 目标 识别 系统 的 实验 比较 和 性 能 评估 往往 是 在 一 些 标准 图 像 库 上 进行 
的 ， 描 述 规整 、 功 能 强大 的 图 像 数 据 集 对 于 图 像 目 标识 别 过 程 以 及 评价 体系 的 
建立 非常 重要 。 图 像 数据 与 一 般 事务 数据 不 同 ， 它 的 数据 量 大 ， 具 有 多 维 性 和 
多 样 性 。 

根据 模式 识别 的 理论 知识 ， 如 果 一 个 训练 数据 集 代 表 了 对 象 集 的 总 体 分 布 ， 
那么 识别 系统 对 新 的 对 象 操作 的 性 能 就 和 对 训练 数据 集 一 样 。 然 而 ， 获 取 足 够 
大 的 数据 集 经 常 是 一 件 费 力 的 事 。 为 了 使 数据 集成 为 具有 代表 性 的 ， 它 必须 包 
括 可 能 遇 到 的 各 种 类 型 对 象 的 例子 ， 包 括 一 些 不 常见 的 对 象 .|。 

一 些 传 统 的 图 像 数 据 集 ， 如 Caltech, PASCAL 等 ， 为 图 像 目标 识别 学 习 评 
价 提供 了 基线 标准 ， 这 些 图 像 库 在 理想 环境 下 评价 算法 的 性 能 相对 较 高 ， 但 缺 
乏 背 景 变 化 复杂 的 真实 图 像 ， 因 此 无 法 评价 图 像 目标 识别 方法 的 健壮 性 和 自 适 
应 性 。 新 兴 的 图 像 数 据 集 ， 如 LabelMe, LotusHill 等 ， 基 于 特定 的 图 像 识别 任 
务 ， 从 简单 的 图 像 分 类 到 海量 图 像 检 索 和 网 络 图 像 注释 ,已 经 融入 了 基本 的 视 


























党 数据 和 相应 的 先 验 知识 。 

1. Caltech 图 像 库 

Caltech 图 像 库 含有 Caltech-1012 和 Caltech-256° 这 两 个 数据 集 。Caltech101 
是 由 加 州 理 工学 院 的 Li 等 创建 的 图 像 集 ， 有 101 类 目标 ， 每 类 目标 有 40 ~ 800 
幅 图 像 ， 图 像 大 小 约 300 x200 像素 ， 并 对 每 幅 图 像 都 进行 了 注释 ， 每 个 注释 包 
括 两 种 信息 : 一 是 目标 位 置 的 边界 盒 ， 二 是 人 工 描绘 的 目标 轮廓 。 

Caltech- 101. 图 像 库 的 优点 在 于 图 像 大 小 和 目标 相对 位 置 大 体 相 同 ， 不 需要 
花 时 间 去 裁剪 图 像 就 能 进行 实验 ; 图像 的 杂乱 或 遮挡 部 分 很 少 ， 识 别 算法 可 以 
依赖 于 目标 的 少数 特征 ;对 目标 轮 廊 的 细节 进行 了 注释 。 其 缺点 是 图 像 目 标 种 
类 较 少 ， 真 实 世 界 的 目标 粗略 分 类 也 达到 万 以 上 的 数量 级 ; 图 像 大 都 过 于 简单 ， 
而 图 像 目 标 通 常 在 相对 位 置 和 方向 上 有 更 多 的 变化 ， 目 标 和 背景 之 间 也 会 存在 
遮挡 。 

2007 年 ， 加 州 理 工学 院 在 Caltech- 101 基础 上 又 创建 了 Caltech 256 图 像 库 。 
该 图 像 库 包含 了 30607 幅 图 像 ， 共 分 为 256 类 目标 ， 类 别 相 当 于 原来 的 两 倍 多 。 
各 类 图 像 的 最 小 数目 增 至 80 幅 ， 还 加 入 了 更 复杂 的 图 像 背景 和 更 多 的 目标 姿态 
变化 。 

2. Corel ARE 

Corel 是 基于 不 同 场景 的 图 像 库 ， 共 6 个 大 类 ， 平 均 每 类 有 近 14000 幅 图 像 ， 
广泛 应 用 于 基于 内 容 的 图 像 检 索 领 域 。 它 是 注释 后 的 图 像 集 ， 但 注释 是 不 同 的 
研究 人 员 完 成 的 ， 注 释 质量 差别 很 大 ， 由 于 注释 的 多 变性 ， 目 前 无 法 直接 进行 
图 像 目 标识 别 的 性 能 估计 。 此 外 ,不同 的 研究 课题 通常 采用 不 同 场景 的 图 像 库 
子 集 进 行 测试 ， 所 以 很 难 对 基于 该 图 像 库 的 目标 识别 结果 进行 直观 的 比较 。 

美国 宾 儿 法 尼 亚 州 州立 大 学 的 王 教 授 从 Corel 标准 测试 图 像 库 中 挑选 出 来 一 
个 子 集 ， 称 为 WANG 图 像 库 ， 被 广泛 应 用 于 对 识别 效果 验证 。 该 图 像 库 中 包 
PAR GG ES. MEME, EA, ACRE, WÈ, KA, EF, GB. Hi, 
食品 10 类 共计 1000 幅 彩 色 图 像 ， 缘 存储 为 JPEG 格式 ， 大 小 为 256 x 384 像素 或 
384 x256 像素 。 如 果 查 询 图 像 来 自 于 10 类 中 的 一 类 ， 查 询 者 可 以 从 此 类 中 找 出 
其 他 图 像 ， 有 利于 评价 检索 结果 ， 当 然 ， 该 图 像 库 也 可 以 用 来 评价 图 像 分 类 的 
效果 。 
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3. COIL 图 像 库 

COIL 图 像 库 是 美国 哥伦比亚 大 学 计算 机 科学 学 院 创 建 的 图 像 数 据 集 。COIL- 
20 里 含有 20 种 不 同 3D 目标 的 72 种 视角 (以 5° 为 间隔 ) 灰 度 图 像 。 每 幅 图 像 
包括 一 个 单一 目标 ， 且 在 不 同 光 照 条 件 下 ， 这 些 目标 在 均匀 的 黑色 背景 前 ， 共 
有 256 个 灰 度 级 。 总 计 有 1440 幅 大 小 为 128 x128 像素 的 参考 图 像 ， 称 为 “处 理 
过 的 数据 ”( Processed Data) ， 还 有 360 幅 大 小 为 448 x416 像素 的 测试 图 像 ， 称 
为 “未 处 理 的 数据 ” ( Unprocessed Data ) ， 这 两 类 图 像 的 光照 条 件 和 大 小 都 不 
同 ， 可 以 满足 训练 和 测试 相互 独立 的 要 求 。 

为 了 增 大 图 像 识别 的 难度 ,在 COIL-20 的 基础 上 又 创建 了 新 图 像 库 和 新 背景 
图 像 库 ， 每 个 测试 集 都 有 目标 的 转换 参数 信息 ， 可 以 将 不 同 转换 的 影响 分 开 。 
Keysers 在 2006 年 创建 了 两 种 不 同 背 景 的 图 像 库 : COIL- RWIH- 1 和 COIL- RWIH-2。 
前 者 包括 在 均匀 背景 中 的 目标 ， 后 者 包括 现实 世界 中 不 均匀 背景 中 的 目标 ， 它 
们 也 都 分 为 训练 图 像 和 测试 图 像 ， 并 且 分 辩 率 不 同 。COIL-100 图 像 库 包含 100 
个 目标 的 7200 幅 彩 色 图 像 (平均 每 个 目标 72 幅 ) ， 目 标 有 多 变 、 复 杂 的 几何 和 
影像 特性 。 

4. PASCAL 图 像 库 

PASCAL (Pattern Analysis ，Statistical Modeling and Computational Learning) 图 
像 库 是 2005 年 由 欧洲 的 苏黎世 大 学 、 爱 丁 堡 大 学 及 牛津 大 学 组 织 倡 导 的 ， 由 相 
应 的 专项 基金 支持 ， 旨 在 构建 含有 海量 数据 的 公用 图 像 库 ， 在 现实 场景 中 识别 
多 个 目标 类 别 信息 ， 为 全 世界 的 图 像 识别 研究 人 员 提 供 一 个 基准 ， 进 行 相应 的 
算法 分 析 和 方法 比较 。PASCAL 视觉 目标 识别 竞赛 ( 从 2005 年 开始 ， 每 年 一 次 ) 
也 采用 该 图 像 库 ， 这 个 图 像 库 包含 标注 信息 ， 是 目前 识别 难度 最 大 的 数据 集 之 
一 ， 而 且 每 年 都 进行 类 别 和 数量 的 扩充 ， 并 做 相应 的 技术 统计 报告 。 

PASCAL2005° 包含 4 类 目标 (摩托 车 、 自 行车 、 汽 车 和 人 ) 在 不 同 姿势 、 
不 同 视角 下 的 照片 ，PASCAL2006? 包 含 10 类 目标 (自行 车 、 小 汽车 、 摩 托 车 、 
A, ARARE, M, W, FA, D, WA) H 5304 幅 图 像 ， 都 标注 了 位 置 CH 
标 边 界 框 ) 及 类 别名 称 ; PASCAL 2007° 中 共 包 含 训 练 图 像 2501 幅 ， 验 证 图 像 
2510 幅 ， 测 试图 像 4952 幅 ， 包 括 自 行车 、 小 汽车 、 摩 托 车 、 公 共 汽 车 、 船 、 火 
车 、 飞 机 、 人 、 猜 、 狗 、 母 牛 、 马 、 绵 羊 、 鸟 、 植 物 、 瓶 子 、 餐 旧 、 沙 发 、 椅 
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子 、 显 示 器 20 个 类 别 ， 这 些 真实 场景 中 的 图 像 中 可 能 同时 包含 几 类 目标 ， 目 标 
的 大 小 比例 变化 很 大 ， 检 测 目标 存在 遮挡 、 变 形 ， 同 类 目标 之 间 也 有 较 大 的 差 
距 ， 每 幅 图 像 有 相应 的 按 规范 格式 书写 的 标注 文件 ， 标 明了 图 像 中 包含 的 目标 
名 称 、 边 界 盒 、 视 点 〈 前 视图 、 后 视图 、 左 视图 、 右 视图 、 未 知 视图 ) 及 识别 
难 易 度 ; PASCAL 20082 的 目标 类 型 和 PASCAL 2007 没有 太 多 变化 ， 同 样 是 20 
类 ， 只 是 多 了 一 些 分 割 的 标注 信息 ， 另 外 ， 难 度 也 有 所 增强 。 

PASCAL 图 像 库 对 每 幅 图 像 中 目标 的 位 置 及 类 别 的 标注 ， 使 得 在 测试 过 程 中 
可 以 分 别 检验 图 像 分 类 (目标 在 测试 图 像 中 是 否 出 现 ) 和 目标 定位 (测试 图 像 
中 每 个 目标 的 边界 框 ) 的 效果 。PASCAL 图 像 库 的 男 一 个 特别 之 处 在 于 提供 了 两 
种 测试 集 : 第 一 种 测试 集中 的 数据 来 源 于 许多 传统 的 标准 图 像 库 ， 如 Caltech 图 
像 库 (训练 集 和 测试 集 遵 循 随机 的 均匀 可 变 分 布 ， 许 多 算法 对 该 图 像 库 已 经 达 
到 非常 好 的 实现 效果 ) ; 第 二 种 测试 集 可 以 解决 新 实例 的 收集 问题 ， 通 过 不 同 的 
图 像 获 取 途 径 ， 如 图 像 搜索 、 视 频 监控 、 航 空 拍摄 等 ， 在 尺度 变化 、 多 姿态 、 
复杂 背景 以 及 局 部 遮挡 等 方面 为 测试 集 提 供 了 更 加 丰富 的 数据 ， 用 以 评价 算法 
的 谤 化 能 力 。 

5. LabelMe 图 像 库 

LabelMe?* J& MIT 计算 机 系 人 工 智 in LM 个 允许 在 线 标记 和 图 像 
资源 共享 的 通用 注释 工具 。 该 工具 提供 多 边 形 绘图 、 图 像 查 询 和 浏览 图 像 库 等 
许多 功能 ， 图 像 库 和 所 有 的 注释 都 可 以 免费 使 用 ， 并 且 支 持 几乎 所 有 的 浏览 吕 
其 至 可 以 支持 Javascript 标准 图 形 接口 。 注 释 的 结果 保存 在 XML 文件 格式 中 ， 这 
样 的 注释 可 植 人 并 容易 扩展 。 

LabelMe 是 一 个 不 断 拓展 的 标记 图 像 库 ， 有 11845 幅 静 态 图 片 ，18524 组 图 
像 序 列 (每 组 序列 至 少 存在 一 个 标记 目标 )。 图 像 库 中 包含 111490 个 多 边 形 组 
成 的 目标 区 域 (2006 年 年 底 统计 ) ， 其 中 44059 个 是 用 在 线 工 具 标 注 的 ，67431 
个 是 离线 标注 的 。 其 一 个 重要 优势 在 于 包含 WordNet， 可 以 在 WordNet 树 的 不 同 
级 别 查 询 目 标 。 

LabelMe 与 其 他 图 像 数 据 集 的 主要 区 别 是 : LabelMe 中 的 目标 是 一 类 而 并 非 
个 体 信息 ， 识 别 一 个 目标 的 类 别 信息 ， 不 但 需要 同类 的 不 同 个 体 的 多 张 图 像 ， 
而 且 需 要 不 同 的 观察 条 件 ; 在 真实 场景 中 标记 目标 ， 使 得 目标 检测 具有 很 强 的 
Heri, 适合 训练 基于 复杂 背景 的 图 像 目标 识别 系统 ; 高 质量 、 在 线 标注 ， 
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不 仅 保证 了 资源 同 享 而 且 更 多 细节 信息 (如 边界 框 、 多 边 形 或 分 割 掩 膜 ) 对 
目标 识别 和 图 像 分 析 非 常 有 帮助 ; 许多 不 同 的 目标 类 和 大 量 不 同 场景 的 图 像 ， 
可 以 面向 更 多 图 像 识别 的 应 用 场合 ， 通 过 改变 目标 种 类 、 场 景 样式 、 距 离 远 
近 、 背 景 复 杂 度 等 ， 在 分 析 不 同 的 环节 和 参数 对 识别 效果 的 影响 时 ， 是 非常 
有 用 的 ; LabelMe 是 个 公开 的 图 像 库 ， 采 用 许多 非 版 权 图 像 ， 大 多 数 是 利用 手 
提 式 数码 相机 拍摄 的 ， 也 有 许多 利用 网 络 摄像 头 获取 的 视频 ， 具 有 开放 性 和 
动态 性 。 

6. 莲花 山 图 像 库 

上 述 图 像 库 局 限于 仅仅 标记 了 目标 的 粗糙 边界 ， 并 不 适合 精细 的 区 域 分 制 
或 语义 分 解 。 因 此 在 LabelMe 图 像 库 的 基础 上 ， 出 现 了 男 一 种 包含 更 为 详尽 的 视 
觉 知 识 的 图 像 库 一 一 莲花 山 图 像 库 (Lotus Hill Research Institute Image Cor- 
pus)'”]。 该 图 像 库 是 由 中 国 莲花 山 计算 机 视觉 和 信息 科学 研究 院 创 建 的 ， 由 全 
职 标注 人 员 用 解释 图 (Parse Graph) 的 方式 对 每 个 图 像 或 目标 进行 了 标注 ， 并 
按照 WordNet 的 标准 表示 目标 、 部 件 的 名 字 和 关系 。 

莲花 山 图 像 库 到 2008 年 为 止 有 3927130 个 位 置 点 ，636748 幅 图 像 (视频 )， 
而 且 数 目 还 在 不 断 增加 ， 其 中 13 个 子 集 一 般 作 为 算法 评估 的 基准 ， 如 一 般 场 
景 、 事 件 和 活动 、 航 拍 图 像 、 热 门 目 标 、 一 般 目 标 、 人 脸 和 姿态 、 视 频 剪 辑 、 
文字 、 自 然 图 像 的 2. 1D 分 层 表示 等 。 

莲花 山 图 像 库 不 单纯 是 图 像 数据 的 存储 管理 和 查询 检索 ， 而 且 是 基于 通用 
需求 标记 信息 的 标识 法 和 组 织 法 ,构建 的 一 种 新 的 大 型 的 、 通 用 的 、 真 实 的 图 
像 数 据 集 ， 实 现 了 图 像 理解 中 信息 组 织 和 信息 运用 的 两 大 基本 任务 。 该 图 像 库 
通过 适当 组 合 注释 工具 的 功能 模块 ， 可 以 完成 对 图 像 的 任何 标记 和 注释 工作 ， 
并 利用 知识 库 的 引导 加 速 这 一 过 程 。 

随 着 目标 种 类 的 增加 、 同 一 类 目标 之 间 视 觉 差 别 的 增 大 ， 目 标识 别 研究 对 
图 像 数据 的 数量 和 种 类 有 着 更 为 严格 的 要 求 。 而 大 多 数 图 像 库 都 是 人 工 收集 并 
加 以 标注 的 ， 这 耗费 了 大 量 的 人 力 和 物力 。 近 些 年 ， 不 少 科 研 人 员 在 尝试 让 计 
算 机 自动 完成 这 项 任务 。Fergus 等 人 ”使 用 视觉 信息 对 从 网 上 获得 的 大 量 图 
像 数据 进行 标注 ， Berg 等 人 ' 当 则 专注 于 建立 几 种 动物 类 的 图 像 数 据 库 ， 他 们 使 
用 搜索 工具 从 网 上 搜索 图 像 ， 通 过 狄 雷 克 勒 分 配 技 术 发 气 一 系列 潜在 主题 和 对 
应 的 图 像样 例 ，Schro 等 人 :2 利用 贝 叶 斯 理论 和 支持 向 量 机 技术 实现 了 图 像 数 
据 库 的 自动 收集 ; Collins AE 为 了 获得 精确 和 大 规模 的 图 像 数据 集 ， 设 计 
了 一 种 判别 性 学 习 方 法 ， 能 主动 在 线 学 习 快 速 分 类 对 象 并 实现 数据 库 的 自动 
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构建 。 随 着 目标 识别 系统 的 发 展 ， 相 信 会 出 现 更 多 更 好 的 图 像 库 和 图 像 数据 
收集 算法 。 

从 模式 识别 的 角度 来 说 ， 数 据 集 在 系统 性 能 评 佑 中 的 应 用 方式 主要 有 三 
ARO, 重 替代 法 ， 就 是 使 用 相同 的 数据 集 ， 先 进行 训练 再 进行 测试 ， 这 种 方法 
非常 简便 ,但 测试 结果 通常 是 偏 于 乐观 的 ， 坚 持 把 可 用 的 数据 集 被 分 成 两 个 子 
R, 一 个 用 于 训练 ， 一 个 用 于 测试 ， 这 种 方法 最 为 常用 ,但 缺点 是 划分 子 集 减 
少 了 训练 和 测试 数据 集 的 大 小 ， 而 且 需 要 人 为 决定 用 于 训练 集 和 测试 集中 的 样 
本 数目 ; 留 一 法 ,循环 地 以 每 一 个 样本 为 测试 对 象 ， 而 数据 集中 的 其 他 样本 作 
为 训练 样本 ,该 方法 使 用 了 所 有 样本 的 同时 维持 了 训练 数据 集 和 测试 数据 集 之 
间 的 独立 性 ， 但 缺点 是 有 很 高 的 计算 复杂 度 。 本 书 的 实验 中 在 对 图 像 库 的 使 用 
上 采取 第 二 种 方案 ， 即 划分 出 两 个 独立 的 子 集 作 为 训练 集 和 测试 集 ， 它 们 包含 
的 样本 数量 比例 一 般 为 8:2 或 7:3。 









































1.5 图 像 目 标识 别 的 开发 环境 


正如 1.3.2 节 所 述 ， 图 像 目 标识 别 系统 是 采集 、 表 达 、 分 析 和 识别 图 像 中 
视觉 信息 的 系统 ， 涉 及 图 像 处 理 、 模 式 识别 乃至 机 器 视觉 知识 的 方方面面 ， 因 
此 借助 一 些 开 源 函 数 工 具 ， 可 以 更 有 效 、 更 有 针对 性 地 研究 图 像 中 各 种 是 知识 
模型 与 相应 的 图 像 数 据 处 理 过 程 。 

开发 环境 (Software Development Environment) 一 般 是 指 在 基本 硬件 和 宿主 
软件 的 基础 上 ， 为 支持 系统 软件 和 应 用 软件 的 工程 化 开发 和 维护 而 使 用 的 一 组 
软件 ， 简 称 SDE。 作 为 一 种 软件 工具 ， 开 发 环境 能 够 让 科研 工作 者 摆脱 自己 实 
现 底层 代码 的 繁琐 工作 ， 从 而 提高 图 像 目 标识 别 算法 的 实现 效率 ,加 速 相关 理 
论 和 方法 的 研究 进程 ; 在 实际 应 用 中 ,掌握 并 能 熟练 使 用 一 种 或 儿 种 图 像 目 标 
识别 方面 的 开发 环境 ， 将 对 开发 图 像 目标 识别 软件 十 分 有 帮助 。 

1. OpenCV 的 优势 

OpenCV (Open Source Computer Vision Library) 是 由 Intel 公司 资助 的 基于 
BSD 许可 证 授权 (开源 ) 发 行 的 跨 平台 计算 机 视觉 库 ， 主 要 面向 商业 开发 或 研 
究 学 者 ， 目 前 由 Willow Garage 公司 负责 日 常 维护 ， 它 的 不 断 发 展 对 智能 信息 处 
理 、 机 咒 视 觉 、 人 工 智能 、 图 像 识别 和 认 知 神经 科学 方面 软件 的 研发 都 有 非常 
重要 的 影响 。 

OpenCV 的 主要 特点 有 : 
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1) 轻 量 级 而 且 高 效 ， 由 一 系列 C 函数 和 少量 C + + 类 构成 ， 其 代码 都 经 过 
优化 ， 可 用 于 实时 处 理 图 像 。 

2) 统一 的 结构 和 功能 定义 。 

3) 具有 和 良好 的 可 移植 性 ， 可 以 运行 在 Linux, Windows 和 Mac OS 操作 系 
统 上 。 

4) 可 以 进行 图 像 / 视 频 载 人 、 保 在 和 采集 的 常规 操作 ， 实 现 了 图 像 处 理 和 
计算 机 视觉 方面 的 很 多 通用 算法 。 

5) 有 具有 底层 和 高 层 的 应 用 开发 包 和 方便 灵活 的 用 户 接口 ， 同 时 支持 Python、 
Ruby, MATLAB 等 语言 编程 。 

6) 提供 了 面向 Intel IPP 高 效 多 媒体 函数 库 (Integrated Performance Primi- 
tives) 的 接口 ， 可 针对 Intel CPU 优化 代码 ， 提 高 程序 性 能 (OpenCV 2.0 版 的 代 
码 已 显著 优化 ， 无 需 IPP 来 提升 性 能 ， 故 2.0 版 不 再 提供 IPP 接口 )， 如 图 1-3 
所 示 。 
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图 1-3 OpenCV 与 其 他 视觉 函数 库 的 性 能 比较 


图 中 所 用 的 视觉 函数 库 版 本 分 别 为 OpenCV 1.0 测试 版 ，IPP (Intel Integrat- 
ed Performance Primitives) 5.0, LTI.9.14 和 VXL ( Vision Something Libraries ) 
1.4.0, Kb, 2D DFT 是 对 512 x 512 的 图 像 进 行 快速 傅 里 叶 变换 ，Resize 是 将 
512 x512 的 8 比特 3 通道 图 像 通过 双 线 性 插值 运算 调整 为 384 x 384 的 图 像 ; 
Optical Flow 是 用 41 x41 窗口 在 4 级 图 像 金字 塔 上 跟踪 520 个 点 构成 的 目标 ; 
Neural Net 用 的 是 FANN (Fast Artificial Neural Network Library) 中 的 一 个 神经 
网 络 。 


























2. OpenCV 的 功能 

参照 中 文官 方 网 站 2? ， 下 面 列 出 了 OpenCV 能 够 实现 的 众多 功能 : 

1) 对 图 像 和 视频 数据 的 操作 ， 支 持 文 件 或 摄像 头 作 为 输入 ， 图像 和 视频 文 
件 作 为 输出 ， 进 行内 存 分 配 与 释放 ， 图 像 复 制 、 设 定 和 转换 数据 。 

2) 对 和 矩阵 和 疝 量 数据 的 操作 以 及 线性 代数 运算 ,包括 矩阵 乘积 、 和 窍 阵 方程 
求解 、 求 取 特 征 值 以 及 奇异 值 分 解 等 。 

3) 对 多 种 动态 数据 结构 进行 操作 ， 如 链表 、 队 列 、 集 合 、 树 和 图 等 。 

4) 基本 的 数字 图 像 处 理 ， 如 可 以 进行 图 像 去 品 、 边 缘 检 测 、 角 点 检测 、 采 
样 与 插值 、 色 彩 变 换 、 形 态 学 处 理 、 直 方 图 分 析 和 构建 图 像 金字 塔 结构 等 。 

5) 对 各 种 结构 进行 分 析 ， 包 括 连 通 分 支 、 轮 廓 处 理 、 距 离 转 换 、 图 像 逢 计 
T. RRI, EREK, ZMNE, REWE, MAWA Delaunay 三 角 
划分 等 。 

6) 摄像 头 定 标 ， 包 括 发 现 和 跟踪 指定 模式 、 参 数 标定 、 齐 次 和 矩阵 估计 、 单 
应 矩阵 估计 、 立 体 视觉 匹配 等 。 

7) 运动 分 析 ， 如 对 光 流 、 动 作 分 割 和 目标 跟踪 的 分 析 。 

8) 目标 识别 ， 比 如 通过 特征 方法 或 隐 马 尔 可 夫 模 型 ( Hidden Markov Mod- 
el, HMM) 等 。 

9) 基本 的 GUI (Graphical User Interface, FAP ARUBA) 功能 ， 如 图 像 或 
视频 的 显示 ， 键 盘 、 鼠 标 以 及 滚动 条 事件 处 理 等 。 

10) 图 像 标 注 ， 如 对 直线 、 曲 线 和 多 边 形 进行 标注 ， 还 可 以 进行 文本 标注 
(目前 只 支持 中 文 ) 。 

3. OpenCV 的 模块 

到 2011 年 8 月 为 止 ，OpenCy 的 最 新 版 本 是 2. 3. 1， 主 要 包含 了 五 个 模块 

1) CV 一 一 核心 函数 库 。 

2) CVAUX 一 一 辅助 (实验 性 的 ) 函数 库 。 

3) CXCORFE 一 一 数据 结构 与 线性 代数 库 。 

4) HIGHGUI 一 一 图 像 界 面 函 数 库 。 

5) MI 一 一 机 器 学 习 函 数 库 (实现 模式 分 类 和 回归 分 析 等 功能 ) 。 

在 早期 版 本 中 曾 出 现 过 CVCAM 模块 ， 它 负责 读 取 摄像 头 数据 ， 当 HIGH- 
GUI 模块 中 加 入 Direct Show 支持 后 ， 此 模块 被 废除 。 
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可 以 看 出 ，OpenCV 是 一 个 扩充 性 很 好 的 算法 库 ， 其 模块 可 以 自由 添加 和 删 
除 ， 功 能 也 在 不 断 丰 富 中 。 因 此 在 进行 OpenCV 编程 的 时 候 ， 要 能 不 断 接受 新 思 
想 、 新 方法 (事实 上 这 正 是 其 开源 的 目的 和 意义 )， 经 常 访问 OpenCV 相关 网 站 
和 论坛 也 不 失 为 一 种 及 时 把 握 OpenCV 最 新 内 容 的 便捷 途径 。 














1.6 主要 难点 与 发 展 趋势 


数字 图 像 具 有 信息 量 大 、 内 容 丰 富 、 表 现 力 强 、 便 于 存储 和 传输 等 优点 ， 
在 社会 生活 的 诸多 方面 发 挥 着 重要 作用 。 但 是 受到 计算 理论 和 方法 的 制约 ， 现 
有 技术 难以 满足 人 们 日 益 增 长 的 对 图 像 识别 的 广度 和 深度 的 需求 ， 数 字 图 像 应 
用 的 突出 挑战 问题 如 下 。 

首先 ， 数 字 图 像 草 含 了 丰富 的 语义 ， 由 于 图 像 目标 回 有 的 复杂 性 ， 出 现 了 
“有 信息 ， 用 不 了 ”的 情况 。 在 图 像 处 理 过 程 中 ， 通 常 可 方便 地 从 图 像 目 标 中 提 
取 各 种 底层 描述 ， 然 和 而， 底层 描述 与 丰富 的 高 层 语义 之 间 缺 乏 简单 、 明 确 的 对 
应 关系 ， 提 取 多 类 别 、 多 层次 的 语义 信息 仍然 十 分 困难 。 

其 次 ， 由 于 图 像 的 数据 量 极 大 ， 出 现 了 “信息 多 ， 用 不 好 ”的 情况 。 随 着 
图 像 数 据 获取 手段 的 快速 发 展 ， 图 像 数 据 量 呈 爆炸 式 增长 ， 当 前 图 像 识别 的 计 
算 模型 和 方法 在 处 理 高 维 多 模 态 海量 数据 时 面临 着 重大 挑战 。 

最 后 ， 获 取 的 同一 组 数据 可 用 于 多 种 用 途 ， 出 现 了 “需求 多 ， 顾 不 到 ”的 
情况 。 数 字 图 像 的 应 用 需求 日 益 多 样 化 ， 各 种 应 用 对 处 于 不 同 概 念 级 上 的 语义 
需求 各 异 ， 同 一 应 用 在 不 同上 下 文 环境 下 对 语义 的 要 求 也 不 尽 相 同 。 但 是 ， 由 
于 缺乏 对 需求 的 感知 一 一 缺乏 将 高 层 需求 转化 为 机 器 可 接受 的 高 层 语义 特征 ， 
缺乏 从 高 层 语义 特征 到 底层 特征 间 可 逐 级 计算 的 多 层次 特征 表示 和 计算 模型 ， 
因此 难以 从 图 像 数 据 中 提取 出 有 效 的 语义 并 组 织 起 来 满足 多 样 化 的 应 用 需求 。 

图 像 目标 识别 所 面临 的 许多 难点 都 可 以 归结 到 图 像 处 理 与 模式 识别 领域 的 
一 些 基础 性 问题 ,这些 问题 目前 还 没有 满意 的 解决 方法 , 但 对 目标 识别 来 说 它 
们 又 是 如 此 的 重要 。 因 此 ， 相 关 领 域 的 科研 人 员 对 它们 开展 了 大 量 的 研究 工作 ， 
并 取得 了 一 定 的 前 沿 性 成 果 。 

1. 图 像 中 感 兴趣 物体 的 分 割 

大 多 数 模 式 识 别 问题 假设 模式 是 与 背景 信号 和 其 他 模式 分 离 的 ， 目 标识 别 
也 同样 需要 将 对 象 从 图 像 中 分 割 出 来 ， 以 便 进一步 处 理 。 实 际 上 ， 由 于 图 像 结 
构 及 其 内 部 特征 的 复杂 性 、 多 样 性 ， 仅 依据 诸如 图 像 颜色 、 梯 度 、 纹 理 等 底层 的 
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图 像 特征 很 难 获 得 反映 正确 对 象 和 背景 区 域 的 分 割 结果 ， 不 得 不 借助 于 更 高 层 的 
先 验 知识 ， 而 更 高 层 的 先 验 知识 的 获取 和 表示 本 身 就 是 一 个 非常 困难 的 问题 。 所 
VA, 尽管 人 们 长 期 以 来 为 研究 对 象 分 割 问题 做 出 了 很 大 努力 ,但 还 是 没有 一 种 统 
一 的 理论 或 通用 的 方法 能 对 任何 情况 下 的 任意 对 象 进行 效果 理想 的 分 割 。 

近年 来 ， 局 部 特征 在 目标 识别 中 的 广泛 应 用 开辟 了 一 条 新 的 途径 ， 即 
不 需要 先 将 对 象 完整 的 分 割 出 来 ， 只 是 依 徘 检 测 到 的 对 象 的 局 部 特征 就 可 以 达 
到 识别 对 象 的 目的 。 随 着 各 种 局 部 特征 不 断 涌现 ,一 些 人 研究 者 考虑 针对 不 同 目 
标的 具体 特性 自动 选择 不 同 的 局 部 特征 来 完成 识别 任务 ”3 ， 还 有 一 些 研 究 者 
正在 探索 将 不 同 的 局 部 特征 结合 起 来 进行 目标 识别 。 

2. 视点 不 同 造成 的 表象 差异 

在 同一 个 场景 中 ， 视 点 的 变化 往往 使 得 物体 所 呈现 的 表象 有 所 不 同 ， 比 如 
物体 的 大 小 比例 、 几 何 形状 、 物 体 的 不 同 侧面 等 ， 这 些 都 需要 进行 复杂 的 图 像 
处 理 。 对 于 视点 远近 变化 造成 的 物体 大 小 不 同 ， 要 求 识 别 系统 具有 某 种 斥 度 不 
变性 ， 虽 然 通 过 多 分 辨 率 分 析 技 术 “” 可 以 部 分 解决 这 个 问题 , 但 是 如 何 让 计 
算 机 自动 确定 相应 的 尺度 来 识别 物体 ， 目 前 还 没有 一 个 令 人 满意 的 答案 。 

由 于 视点 发 生变 化 ， 同 一 个 物体 所 呈现 的 不 同 侧面 往往 特征 不 同 ， 其 至 产 
生 了 自身 的 遮挡 。 近 年 来 ， 利 用 三 维 模型 建立 视 面 图 的 方法 汪汪 取得 了 一 些 
成 功 。 这 种 方法 先是 建立 以 三 维 目 标 为 中 心 且 与 视点 无 关 的 3D 模型 ， 然 后 对 视 
点 进行 限制 并 对 目标 进行 平行 投影 得 到 二 维 视 面 模型 ， 将 目标 可 见 表面 相同 的 
投影 合并 得 到 一 个 视 区 。 针 对 不 同 视 区 可 以 提取 目标 在 不 同 姿 态 下 的 特征 ， 这 
种 方法 可 以 较 好 地 解决 目标 姿态 变化 造成 的 目标 难以 识别 的 问题 。 

3. 无 标记 图 像 的 学 习 

大 部 分 目标 识别 系统 经 过 训练 后 就 固定 不 变 了 ， 或 者 使 用 相当 长 一 段 时 间 
才 重 新 训练 一 次 。 而 实际 应 用 时 ， 最 初 的 训练 集中 ， 图 像 的 数量 和 代表 性 总 是 
不 够 的 ， 这 就 希望 识别 系统 能 不 断 地 适应 新 的 样本 而 不 损失 对 原来 训练 过 的 样 
本 的 分 类 性 能 。 这 样 的 增 量 学 习 问 题 很 早 就 受到 关注 “和 ， 提 出 了 很 多 具体 的 
方法 ,但 还 没有 一 个 统一 的 理论 框架 。 新 增加 的 样本 可 能 是 没有 类 别 标记 的 ， 
因为 无 标记 的 图 像 很 容易 得 到 ， 而 标记 过 程 费 时 费力 。 这 种 同时 对 标记 样本 和 
无 标记 样本 进行 学 习 的 过 程 称 为 半 监 督学 习 "““” ， 是 近年 来 机 器 学 习 领 域 的 一 
个 研究 热点 。 

目前 ， 还 有 一 种 广 受 关注 的 目标 识别 问题 ， 待 识别 的 对 象 是 没有 分 割 过 的 
图 像 ， 训 练 图 像 的 标记 是 其 中 是 否 存在 某 一 类 物体 ， 而 不 是 物体 的 具体 位 置 、 
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大 小 和 方向 。 对 这 种 标记 不 足 的 样本 进行 训练 和 识别 的 方法 可 以 统称 为 弱 监 督 
学 习 [””， 可 以 用 于 图 像 检 索 、 图 像 分 类 和 目标 识别 等 。 

4. 特征 推理 

机 器 学 习 往 往 通 过 对 样本 的 学 习 建立 初始 模型 ， 采 用 相似 性 聚 类 或 决策 树 等 
方法 对 个 体 进行 预测 或 描述 。 与 机 器 学 习 不 同 ， 特 征 推 理 作为 解决 “语义 鸿沟 ” 
的 男 外 一 种 途径 ， 它 是 由 一 个 或 几 个 已 知 的 判断 (前提 )， 推 导出 一 个 未 知 结论 的 
思维 过 程 。 它 不 需要 学 习 建 模 或 者 训练 过 程 ， 而 是 实时 、 在 线 地 根据 已 有 的 一 些 
目标 的 特征 、 知 识 对 要 识别 的 目标 进行 推理 和 判断 ' 0 。 例 如 ， 在 视频 或 连续 图 像 
中 进行 运动 目标 检测 ， 如 果 我 们 能 识别 出 当前 场景 是 一 条 马路 ， 并 且 知 道 轮船 只 
能 在 水 上 行驶 ， 就 可 以 推断 出 马路 上 发 现 的 运动 目标 一 定 不 是 轮船 。 

视觉 认 知 的 整体 性 和 层次 性 决定 了 整体 特征 和 局 部 特征 的 存在 ， 推 理 往往 
基于 不 同 尺度 的 特征 进行 归纳 、 演 绎 ， 完 成 推导 过 程 。 如 图 1-4 所 示 ， 在 基于 
多 源 卫 星 影像 的 目标 识别 系统 中 ， 首 先 在 粗 尺度 上 提取 特征 ， 对 于 多 光谱 和 合 
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图 1-4 通过 特征 推理 进行 图 像 目 标识 别 的 示例 CORD: AR, 2011 年 ) 
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成 孔径 雷达 影像 ， 根 据 光 谱 或 散射 特性 把 影像 分 割 为 水 体 、 陆 地 、 人 工 建 筑 、 
植被 等 ， 根 据 目标 的 环境 特性 给 出 目标 可 能 出 现 的 区 域 ， 缩 小 目标 搜索 范围 ; 
进而 对 多 光谱 、 全 色 和 遥感 影像 提取 纹理 、 形 状 、 边 缘 等 特征 ， 综 合 整体 特征 、 
局 部 特征 和 知识 库 ， 在 机 场 潜在 区 域 搜 索 飞 机 ， 通 过 面向 对 象 的 推理 实现 飞机 
的 识别 。 























1.7 研究 内 容 与 结构 安排 


本 书 主要 针对 可 见 光 图 像 和 刚性 目标 ， 学 习 并 借鉴 了 图 像 工程 、 模 式 识别 、 
机 噩 视觉 和 人 工 智 能 学 科 中 一 些 先 进 技术 ， 探 讨 了 复杂 背景 下 的 目标 识别 以 及 
局 部 遮挡 物体 的 识别 中 的 关键 问题 ， 为 增强 现 有 图 像 识 别 系 统 的 自动 化 程度 和 
信息 处 理 能 力 提供 理论 支持 和 技术 帮助 。 


1.7.1 本 书 的 研究 内 容 


本 书 围绕 着 图 像 目标 的 表示 与 识别 这 一 主题 ， 鉴 于 当前 国内 外 相关 领域 
的 众多 先进 成 果 和 空白 之 处 ， 对 以 下 几 个 方面 的 问题 进行 了 深入 的 探讨 和 
研究 。 

1. 特征 提取 技术 

目标 特征 提取 是 目标 识别 中 的 关键 技术 ， 对 于 识别 的 最 终 效果 有 着 决定 性 
的 影响 。 整 体 特征 和 局 部 特征 各 有 自己 的 适用 范围 ， 都 要 求 对 亮度 、 尺 度 、 平 
移 和 旋转 具有 一 定 的 不 变性 ， 从 广义 上 讲 , 它们 的 提取 过 程 都 包括 特征 生成 和 
特征 优化 。 其 中 整体 特征 的 性 能 取决 于 目标 分 割 的 准确 程度 ， 局 部 特征 的 性 能 
在 很 大 程度 上 取决 于 特征 区 域 的 选取 和 描述 。 本 书 根据 应 用 背景 和 实际 需求 ， 
详细 前 述 了 整体 特征 的 提取 过 程 和 相关 技术 ， 根 据 应 用 背景 和 实际 需求 ， 选 用 
并 改进 了 一 些 特征 区 域 检测 算法 和 特征 区 域 描述 算 子 ， 为 目标 匹配 和 分 类 提供 
了 性 能 优良 的 局 部 特征 。 

2. 目标 匹配 技术 

使 用 模型 直接 匹配 未 知 物体 ， 并 选择 最 佳 匹配 为 最 终 识别 结果 ， 是 在 很 难 
得 到 有 关 特 征 概 率 和 类 别 概 率 的 先 验 知识 ,或 者 得 到 的 数据 不 足以 设计 分 类 器 
的 情况 下 的 目标 识别 方法 。 而 图 像 背景 复杂 度 、 图 像 清晰 度 、 图 像 中 目标 数目 
和 局 部 遮挡 等 因素 对 图 像 目 标 匹 配 识别 的 效率 、 可 伸缩 性 和 适用 性 提出 了 挑战 。 
本 书 对 匹配 方式 和 相似 度 度 量 的 研究 现状 进行 了 深入 分 析 ， 仔 细 研 究 了 通过 局 
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部 特征 进行 目标 匹配 的 相关 算法 ， 针 对 目标 匹配 在 图 像 拼 接 和 网 像 检索 中 应 用 
的 不 足 之 处 ， 提 出 了 基于 多 分 辩 率 技术 的 航拍 图 像 拼 接 方 法 ， 以 及 基于 原型 匹 
配 的 图 像 检索 方法 。 

3. 目标 分 类 技术 

目标 分 类 一 般 需 要 构造 有 效 的 特征 向 量 和 充分 利用 相关 领域 的 知识 ， 而 且 
设计 分 类 融 是 目标 分 类 的 主要 任务 和 核心 研究 内 容 之 一 。 本 书 详细 介绍 和 比 
较 了 几 种 典型 的 图 像 目 标 分 类 器 的 原理 与 特点 ， 并 综合 评述 了 分 类 顺 的 不 同 
种 类 以 及 性 能 评 佑 方法。 向 量 空间 模型 最 初 是 模式 识别 领域 中 常用 的 文本 表 
示 方 法 。 由 于 局 部 特征 性 能 优越 ， 含 有 的 局 部 信息 可 以 对 图 像 的 内 容 进行 多 
语义 层次 的 描述 ， 也 为 利用 向 量 空间 模型 进行 目标 表示 提供 了 一 条 有 效 途 径 。 
本 书 针对 当前 局 部 特征 在 目标 分 类 中 应 用 的 不 足 之 处 ， 充 分 借鉴 了 向 量 空 间 
模型 的 思想 ， 并 结合 信息 论 的 相关 技术 进行 特征 优化 ， 提 出 了 一 种 基于 局 部 
特征 的 目标 分 类 方法 ， 在 标准 图 像 库 上 的 实验 结果 证 明了 该 方法 的 有 效 性 和 
鲁 棒 性 。 

4. 视点 变化 下 的 目标 识别 技术 

视点 变化 造成 目标 的 表象 差异 是 目标 识别 领域 的 一 个 难点 ， 尤 其 是 观察 角 
度 发 生变 化 ， 同 一 物体 的 不 同 侧面 呈现 出 过 异 的 特征 ， 甚 至 产生 了 自身 遮挡 的 
问题 (物体 的 某 个 部 分 遮挡 了 该 物体 的 其 他 部 分 ) 。 本 书 通过 对 三 维 物体 进行 视 
面 模型 表示 ， 得 到 了 目标 不 同 姿态 的 二 维 投 影 描述 ， 从 而 为 视点 变化 下 的 目标 
识别 构建 了 合适 的 模型 库 。 通 过 对 角 点 特征 的 深入 研究 ， 结 合 主 分 量 法 和 
Hausdorff 距 离 ， 提 出 了 一 种 在 视点 变化 下 目标 匹配 识别 方法 ; 并 提出 了 基于 角 点 
标记 图 的 BP 网 络 分 类 方法 。 实 验 对 比 证 明 ， 基 于 该 特征 的 识别 算法 在 视点 发 生 
变化 时 对 目标 的 识别 更 为 有 效 。 


1.7.2 本 书 的 结构 安排 


本 书 的 组 织 结构 如 下 : 

Sle, 绪论 。 介 绍 了 本 书 的 研究 目的 和 意义 ， 并 给 出 了 图 像 目 标识 别 的 
定义 、 系 统 框 架 和 两 种 研究 思路 ， 列 举 了 图 像 目 标识 别 常 用 的 图 像 库 ， 探讨 了 
图 像 目标 识别 的 主要 难点 和 发 展 趋势 ; 最 后 ， 对 本 书 基本 内 容 和 结构 安排 进行 
简要 说 明 。 

第 2 章 ， 图像 目 标的 整体 特征 提取 。 讨 论 了 图 像 分 割 和 目标 分 割 的 关系 ， 
介绍 了 目标 分 割 的 研究 现状 和 基本 方法 ; 利用 三 类 整体 特征 对 目标 进行 表示 与 





























































































































描述 ; 分 析 了 目前 主流 的 特征 空间 优化 技术 。 








第 3 章 ， 基 于 整体 特征 的 目标 识别 。 概 述 了 模式 识别 的 基础 理论 和 方法 ; 
对 目标 匹配 技术 和 目标 分 类 技术 的 研究 现状 进行 了 回顾 ; 讨论 了 目标 匹配 的 两 
种 基本 方法 和 四 种 基于 距离 的 相似 度 度量 ; 详细 论述 了 常用 的 图 像 目 标 分 类 顺 














的 设计 和 训练 方法 。 





第 4 章 ， 图 像 目 标的 局 部 特征 提取 。 讨 论 了 局 部 特 和 
提取 的 通用 步骤 方法 ; 在 DoG 特征 点 检测 的 基础 上 

















E 的 含义 和 局 部 特征 
SIFT 和 GLOH 描述 











子 完成 了 对 复杂 图 像 的 局 部 特征 提取 与 描述 ; 在 狭义 特 和 











E 点 一 一 角 点 的 检测 





技术 研究 中 ， 针 对 SUSAN 算 子 固定 阅 值 的 问题 ， 提 出 了 自 适应 阐 值 的 改进 


方法 。 








第 5 章 ， 基 于 局 部 特征 的 目标 匹配 。 提 出 了 基于 最 邻近 距离 比 (NNDR) 与 








霍 夫 变 换 的 特征 匹配 策略 ;针对 局 部 特征 匹配 在 目标 图 像 拼 接 和 图 像 检 索 中 应 
用 的 不 足 ， 提 出 了 基于 多 分 辨 率 技术 的 航拍 图 像 拼接 方法 ， 以 及 基于 原型 匹配 








的 图 像 检索 方法 。 











第 6 章 ， 基 于 局 部 特征 的 目标 分 类 。 详 细 介 绍 了 目标 的 向 量 空间 模型 表示 ，; 








阐述 了 视觉 单词 的 理论 依据 以 及 基于 RNN 算法 的 视觉 单词 库 特征 库 构造 方法 ; 


在 此 基础 上 ， 结 合 信息 论 的 相关 技术 进行 特征 选择 ， 
的 目标 分 类 方法 。 











提出 了 一 种 基于 局 部 特征 








第 7 章 ， 基 于 角 点 特征 与 视 面 模型 的 目标 识别 。 通 过 三 维 物 体 的 视 面 模型 
表示 方法 构造 目标 在 不 同 姿态 下 的 投影 模型 库 ; 利用 基准 角 点 定义 了 一 种 具有 





平移 、 旋 转 、 尺 度 不 变性 描述 子 并 用 以 识别 飞机 目标 ; 








E4 EA FI Hausdorff 


距离 ， 提 出 了 一 种 在 视点 变化 下 目标 匹配 识别 方法 ; 提出 了 基于 角 点 标记 图 的 


BP 网 络 分 类 方法 。 
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科学 家 必须 在 庞杂 的 经 验 事实 中 抓 住 某 些 可 用 精密 
公式 来 表示 的 普遍 特征 ， 由 此 探求 自然 界 的 普遍 原理 。 
一 一 阿尔 伯 特 . 爱 因 斯 坦 (1879 一 1955) 


2.1 引言 





认 知 科学 上 关于 视觉 的 相关 理论 认为 ， 特 征 是 决定 相似 性 与 分 类 效果 的 关 
键 ， 当 分 类 的 目的 决定 之 后 ， 如 何 找 到 合适 的 特征 就 成 为 认 知 与 识别 的 核心 问 
题 。 目 标识 别 系 统 通 常 要 提取 有 具有 如 下 性 质 的 特征 描述 ; 来 自 同一 类 别 的 不 同 
样本 的 特征 值 应 该 非常 相近 ， 而 来 自 不 同类 别 的 样本 的 特征 值 应 该 有 很 大 的 差 
异 。 这 样 我 们 就 产生 了 提取 最 有 “鉴别 (Distinguishing)” 能 力 的 特征 的 想法 ， 
这 些 特征 对 与 类 别 信息 不 相关 的 变换 具有 不 变性 (Invariant) 7" 。 

这 种 抓 住 本 质 特征 来 表示 目标 的 方法 ， 一 般 称 之 为 模型 方法 ， 而 物质 世界 
的 统一 性 是 模型 方法 的 哲学 基础 。 自 然 界 和 社会 生活 中 的 各 种 各 样 的 事物 ， 都 
是 运动 着 的 物质 的 各 种 不 同 的 形式 ， 在 千差万别 中 存在 着 同一 性 ， 如 外 形 结 构 
相似 ， 生 理 的、 心理 的 过 程 相似 ， 物 理 过 程 相似 ， 功 能、 行为 相似 ， 以 及 不 同 
运动 形式 可 以 用 共同 的 数学 方程 式 来 描写 等 31。 
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图 2- La 中 所 示 为 各 式 各 样 的 银杏 叶 ， 每 片 叶子 都 体现 着 事物 的 特殊 性 ， 这 
也 正印 证 着 德国 哲学 家 莱 布 尼 菊 的 名 言 ， “世界 上 没有 完全 相同 的 两 片 树叶 ”， 
如 果 不 能 针对 事物 的 普遍 性 ， 只 是 一 片 一 片 地 观察 所 有 的 个 体 ， 即 使 “认识 银 
查 叶 ”这 种 非常 简单 的 问题 也 无 法 表述 ， 更 无 法 解决 。 图 2-1b 所 示 的 这 个 银 查 
叶 的 模型 ,就 是 抽象 思维 和 形象 思维 统一 的 一 个 例证 , 一 方面 ， 它 抽象 出 被 研 
究 对象 一 一 银杏 叶 的 形态 本 质 ， 避 免 了 对 每 个 个 别 事例 进行 全 面 描述 的 繁琐 过 
fe; 另 一 方面 ， 它 运用 形象 思维 的 手段 〈 如 图 形 、 符 号 等 ) 来 反映 事物 的 形态 
本 质 ， 具 有 直观 性 、 鲜 明 性 和 生动 性 。 在 科学 探索 中 ， 模 型 (用 特征 来 表示 目 
标 ) 在 这 两 方面 都 发 挥 了 重要 的 认识 论 功能 。 

从 方法 论 的 角度 来 看 ， 建 立 模型 的 关键 是 要 从 错综复杂 的 矛盾 中 抓 住 主要 











矛盾 ， 要 在 尽 可 能 周密 地 进行 具体 分 析 的 基础 上 舍 末 求 本 , 撤 开 次 要 的 因素 、 
关系 和 过 程 ， 突 出 主要 的 因素 、 关 系 和 过 程 ， 找 到 对 事物 的 发 展 起 决定 性 影响 
的 因素 和 规律 。 在 图 像 目 标的 表示 和 识别 过 程 中 ， 提 取 特 征 建立 模型 既 要 照顾 
到 真实 性 ， 特 征 大 体 要 能 反映 出 目标 的 主要 方面 (光谱 、 纹 理 、 形 状 等 ) ， 又 要 
做 到 尽 可 能 简化 ， 使 得 建立 的 模型 是 当时 已 经 掌握 的 理论 工具 和 数学 方法 所 能 
处 理 的 问题 。 








图 2-1 银杏 叶 模型 的 特征 示例 
a) RAIER b) 银杏 叶 模型 





基于 上 述 性 质 可 以 看 出 ， 提 取 特 征 建立 模型 的 过 程 中 要 求 遵 守 一 定 的 方法 
论 原则 。 

1. 相似 性 与 简单 性 的 统一 

从 相似 性 来 说 ,不 可 能 也 不 必要 要 求 模 型 和 目标 本 身 在 外 部 形态 、 质 料 、 
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结构 、 功 能 等 所 有 方面 完全 一 致 。 但 是 必须 按照 所 研究 问题 的 性 质 和 目的 ,使 
模型 与 目标 本 身 具 有 本 质 上 的 相似 。 从 简单 性 来 说 ， 就 是 要 化 繁 为 简 ， 化 难为 
易 ， 使 复杂 物体 有 可 能 通过 比较 简单 的 模型 来 进行 研究 。 模 型 具有 简单 性 才能 
够 实行 操作 ， 真 正 发 挥 作用 。 但 简化 不 是 主观 随意 的 ， 必 须 以 不 丧失 模型 与 目 
标本 身 的 本 质 上 的 相似 度 为 原则 。 在 用 模型 逐步 逼近 目标 本 身 的 过 程 中 ， 既 要 
保证 模型 应 有 的 精度 ， 又 要 尽量 合理 简化 ， 坚 持 两 者 的 统一 。 

如 图 2-2 中 ， 毕 加 索 最 后 抽象 出 来 的 公牛 的 特征 ， 排 除 其 在 艺术 上 的 加 工 ， 
基本 上 抓 住 了 公牛 的 本 质 特 征 ， 坚 持 了 相似 性 与 简单 性 的 统一 ， 在 绘画 的 角度 
上 使 模型 与 目标 本 身 具有 本 质 上 的 相似 ， 又 从 公牛 各 种 各 样 复杂 的 表象 中 合理 
简化 ， 使 得 这 个 模型 非常 容易 和 其 他 动物 的 模型 相 区 分 。 












































图 2-2 毕加索 的 公牛 


2. 具有 可 验证 性 
一 般 来 说 ， 只 要 模型 具有 可 操作 性 ， 就 有 具体 的 操作 过 程 ， 并 能 够 取得 具 
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体 的 研究 结果 ， 这 结果 是 可 以 实际 进行 对 照 和 比较 的 ， 因 而 就 是 可 验证 的 。 如 
果 通 过 检验 发 现 了 模型 的 缺陷 ， 必 须 对 模型 加 以 修改 ， 甚 至 代 之 以 新 的 模型 。 
如 果 模 型 经 受 了 检验 ， 也 还 需要 进一步 从 理论 上 论证 其 科学 性 。 

从 某 种 角度 上 来 说 ， 牛 的 牛角 、 和 牛尾 、 四 肢 是 非常 显著 的 特征 ， 以 此 建立 
的 模型 从 绘画 角度 上 具有 很 强 的 可 操作 性 。 当 然 ， 在 图 像 目标 的 表示 与 识别 中 
还 要 具体 问题 具体 分 析 ， 比 如 区 分 牛 和 飞禽 、 房 屋 等 ， 这 些 特征 同样 还 是 适用 
的 ， 但 是 如 果 要 细 分 出 几 种 牛 ， 或 者 区 分 出 公牛 和 母 牛 ， 这 些 特 征 恐 怕 已 经 难 
以 经 受 实践 检验 了 ， 必 须 对 特征 加 以 修改 ， 或 者 提取 新 的 特征 。 

3. 多 种 知识 和 方法 的 综合 运用 

无 论 是 建立 模型 ， 还 是 运用 和 检验 模型 ， 都 没有 刻板 的 程序 和 完全 固定 的 
方法 。 一 个 有 效 合理 的 科学 模型 ， 既 要 严格 以 目标 本 身 为 依据 ， 又 要 求人 们 广 
开 思 路 ， 使 经 验方 法 和 理论 结合 ， 逻 和 辑 思维 和 非 罗 辑 思维 并 用 。 模 型 的 综合 性 
的 特点 ， 决 定 了 建立 模型 需要 综合 地 灵活 地 运用 多 种 多 样 的 思想 、 知 识 和 方法 ， 
充分 发 挥 自己 的 形象 思维 能 

针对 图 像 目 标识 别 的 性 质 和 目的 ， 要 综合 运用 多 种 知识 和 方法 ， 不 能 以 偏 
概 全 ， 仅 仅 以 一 种 特征 建立 模型 来 进行 各 种 识别 任务 。 毕 竞 ， 把 两 种 目标 区 分 
开 来 ， 把 几 种 目标 两 两 区 分 开 来 ， 还 有 把 一 种 目标 和 其 他 所 有 目标 区 分 开 来 ， 
复杂 度 可 能 远 远 不 在 一 个 级 别 上 ， 需 要 的 知识 和 方法 可 能 也 不 在 一 个 层次 之 上 。 
而 识别 目标 个 体 与 识别 目标 类 别 也 有 很 大 的 不 同 ， 需 要 经 验方 法 和 理论 方法 的 
结合 ， 加 以 灵活 运用 。 

在 模式 识别 领域 ， 从 狭义 上 讲 ， 特 征 提取 就 是 特征 形成 ， 即 根据 被 识别 的 
对 象 产生 出 的 一 组 基本 特征 ， 它 可 以 是 计算 出 来 的 〈 当 识别 目标 是 波形 或 数字 
图 像 时 ) ， 也 可 以 是 用 仪表 或 传感器 测量 出 来 的 〈 当 识别 目标 是 实物 或 某 种 过 程 
时 ) ， 这 样 产生 的 特征 叫做 原始 特征 。 从 广义 上 讲 ， 特 征 提取 还 包括 特征 空 
间 的 进一步 优化 。 

根据 特征 描述 的 区 域 范 围 不 同 ， 图 像 目标 特征 又 可 以 分 为 整体 特征 和 局 部 
寺 征 两 个 大 类 。 整 体 特征 是 针对 已 经 分 割 出 来 的 目标 而 言 的 ， 对 一 个 图 像 目标 
整体 进行 特征 表示 ， 进 而 分 类 决策 。 整 体 特征 在 图 像 目 标的 表示 与 识别 中 的 应 
用 瓶颈 主要 是 由 于 其 提取 效果 依赖 于 目标 分 割 的 准确 度 ， 而 目标 分 割 本 身 就 是 
一 个 复杂 的 工作 ， 分 割 过 程 中 出 现 的 任何 误差 都 有 可 能 影响 到 后 续 的 目标 描述 
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2.2 图 像 目 标 分 割 








图 像 目 标 分 割 的 主要 工作 是 将 图 像 中 特定 的 目标 对 象 与 背景 图 像 进行 分 离 ， 
它 在 数字 图 像 处 理 与 计算 机 视觉 领域 应 用 越 来 越 广泛 。 例 如 ， 在 执行 交通 监控 
的 车 牌 识别 时 ， 常 需 先 从 整个 道路 场景 图 像 中 分 离 包含 待 识别 车 牌 的 区 域 ; 在 
图 像 编辑 过 程 中 ， 使 用 频率 最 高 的 一 组 操作 便 是 将 一 幅 图 像 中 的 某 个 兴趣 对 象 
复制 出 来 ， 并 将 其 粘贴 到 另 一 幅 背 景 图 像 中 合成 一 幅 新 图 像 ; 在 医学 图 像 处 理 
中 ， 将 脑 部 磁 共 振 成 像 (Magnetic Resonance Imaging, MRI) 图 分 割 成 脑 组织 
(aK. A. SPARES) 和 非 脑 组 织 区 域 ， 然 后 在 此 基础 上 进行 配 准 、 三 
维 模型 重建 等 高 层 处 理 ; 在 基于 内 容 的 图 像 压 缩 、 检 索 等 应 用 中 ， 将 图 像 分 制 
成 具有 不 同 物理 意义 的 目标 区 域 ， 然 后 针对 不 同 的 目标 采用 合适 的 方法 ， 以 实 
现 更 高 效 的 压缩 和 检索 。 


2.2.1 图 像 目 标 分 割 概述 


对 整体 特征 进行 有 效 的 理解 和 研究 ， 必 须要 明确 目标 分 割 的 定义 以 及 它 与 
图 像 分 割 之 间 的 关系 。 图 像 分 割 指 将 图 像 划 分 成 若干 彼此 互 不 交 丢 上 且 自身 具有 
某 种 相似 属性 的 同 质 区 域 。 通 常 它 包含 较 广 的 含义 ， 进 一 步 可 以 细 分 为 面向 图 
像 特 征 的 图 像 分 割 和 面向 物理 、 语 义 特征 的 目标 分 割 。 其 中 ,狭义 的 图 像 分 割 
主要 强调 图 像 的 区 域 和 边缘 ， 力 求 区 域 间 的 特征 差异 较 大 ， 而 区 域内 差异 最 小 ， 
其 分 割 结果 将 形成 互 不 交 释 的 图 像 区 域 或 者 轮廓 线 ; 而 目标 分 割 特 指 将 具有 物 
理 、 语 义 特征 的 目标 对 象 从 相应 的 图 像 背 景 中 分 割 出 来 ， 强 调 两 者 分 离 ， 其 中 ， 
背景 可 以 是 其 他 单独 的 对 象 或 其 他 任意 对 象 的 集合 ， 而 目标 对 象 ， 通常 又 称 之 
为 前 景 ， 则 是 图 像 中 客观 存在 的 具有 某 种 物理 或 语义 意义 的 实体 。 令 了 表示 一 幅 
n xm 的 待 分 割 图 像 ， 则 图 像 分 割 的 定义 可 形式 化 的 表示 为 将 1 划分 为 满足 下 述 
条 件 的 入 个 子 区 域 1，(i=1, 2, =, N55, 

1) UL=1; 

2) LNL= 名 ,其 中 i, j=1, 2, =, NAIA); 

3) SU,)=TRUE A S(LUL)=FALSE, 其 中 i, j=1, 2, +, NH izj, 
S(7) 是 对 元 中 所 有 元 素 属 性 相似 性 描述 的 逻辑 谓词 。 

其 中 ,条 件 1) 指出 图 像 分 割 的 结果 需 满足 该 图 像 可 由 分 割 产 生 的 所 有 子 区 
域 组 合 而 成 ; 条 件 2) 指出 图 像 分 割 结果 中 的 任意 两 个 子 区 域 不 存在 公共 元 素 ， 
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两 两 互相 不 重合 ; 条 件 3) 指出 图 像 分 割 结果 中 每 个 子 区 域内 部 相似 属于 同 质 区 
域 ， 而 子 区 域 之 间 则 有 差异 ,或 者 说 属于 同一 子 区 域 的 元 素 具 有 一 些 相 同 的 特 
征 ， 而 属于 不 同 子 区 域 的 元 素 的 特征 不 同 。 

这 里 ,图像 分 割 与 目标 分 割 均 可 以 采用 上 述 形 式 化 定义 ， 不同 的 是 图 像 分 
割 的 逻辑 谓词 5(。 ) 采 用 的 是 图 像 颜 色 (包括 灰 度 和 彩色 ) 、 纹 理 、 梯 度 等 图 像 
低层 特征 ， 其 分 割 结果 与 实际 物理 对 象 之 间 并 不 一 定 存 在 一 一 对 应 关系 ， 而 目 
标 分 割 利 用 了 更 高 级 、 抽 象 的 对 象 特征 ， 强 调 分 割 结果 中 目标 对 象 与 背景 的 
分 离 。 

此 外 ， 在 第 1 章 关 于 目标 识别 系统 三 个 层次 的 计算 处 理 (1. 3.2 节 ) rh, 4 
义 的 图 像 分 割 仅仅 属于 低 、 中 层 视 觉 问题 ， 其 处 理 过 程 仅 依赖 于 原始 数据 本 身 ， 
虽然 可 以 使 用 极 少量 的 先 验 知识 (如 预先 设 定 的 立 值 等 )， 但 却 不 依赖 于 这 些 先 
验 知识 ; 随 着 视觉 层次 的 提升 ， 所 能 利用 的 先 验 知识 也 越 来 越 丰 富 ， 对 先 验 知 
识 的 依赖 程度 也 越 来 越 高 ， 目 标 分 割 问题 属于 中 、 高 层 视觉 问题 ， 可 以 借助 目 
标 对 象 的 外 观 、 形 态 、 轮 廓 等 高 层 先 验 知识 来 实现 对 目标 对 象 的 分 割 。 图 2-3 
所 示 为 图 像 分 割 与 目标 分 割 的 例子 。 




































































a) b) 


图 2-3 图 像 分 割 与 目标 分 割 CRT: 刘 陈 ， 2009 年 ) 
a) 图 像 分 割 b) 目标 分 割 




















2.2.2 图 像 目 标 分 割 现 状 

早期 的 图 像 分 割 研究 主要 集中 于 对 狭义 图 像 分 割 的 研究 ， 且 并 未 区 分 狭义 
图 像 分 割 与 目标 分 割 的 概念 ， 界 定 比 较 模 糊 。 随 着 数字 图 像 处 理 和 计算 机 视觉 
研究 和 应 用 的 不 断 发 展 ， 更 多 的 需求 强调 针对 图 像 中 某 些 具 有 特定 物理 、 语 义 
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意义 的 兴趣 目标 的 分 析 处 理 ， 使 得 目标 分 割 技术 得 到 了 更 广泛 的 关注 和 研究 。 
但 是 ， 由 于 图 像 结构 及 其 内 部 特征 的 复杂 性 、 多 样 性 ， 仅 依据 诸如 图 像 颜色 、 
梯度 、 纹 理 等 原始 图 像 特征 很 难 获得 反映 正确 目标 和 背景 区 域 的 分 割 结果 ， 不 
得 不 借助 于 更 高 层 的 先 验 知识 。 这 些 高 层 先 验 知识 主要 是 人 们 对 于 待 分 割 目标 
的 认识 和 理解 ， 并 通过 形式 化 的 方法 加 入 到 分 割 过 程 ， 从 而 使 得 分 割 方法 能 将 
目标 对 象 与 背景 分 离 。 

然而 ， 至 今 仍 没有 一 种 统一 的 理论 或 通用 的 方法 能 对 任何 情况 下 的 任意 目 
标 进行 理想 的 分 割 ， 其 至 在 同一 种 情况 下 ， 都 做 不 到 所 有 方法 都 能 获得 好 的 分 
割 结果 。 造 成 这 种 结果 的 原因 包括 客观 和 主观 两 个 方面 。 客 观 原因 分 析 如 下 : 

1) 图 像 获取 的 途径 多 样 ， 成 像 原 理 、 技 术 手 段 各 异 。 常 见 获取 数字 图 像 的 
设备 有 各 式 各 样 的 数字 摄像 机 、 照 相机 、 扫 描 仪 等 ， 而 成 像 的 原理 和 技术 更 是 
各 有 不 同 ， 有 激光 、 红 外 以 及 X- 射 线 、 超 声波 、CT (Computer Tomography ) 、 
MRI ( 见 图 2-4) 等 。 不 同 的 获取 途径 、 成 像 原 理 和 技术 造成 了 图 像 的 情况 多 
样 ， 质 量 不 一 。 












































图 2-4 SOA ABER AE MRI 图 像 


2) 图 像 本 身 结构 复杂 ， 内 部 特征 多 样 。 从 颜色 空间 的 角度 来 看 ， 图 像 可 以 
分 为 二 值 图 像 、 灰 度 图 像 和 彩色 图 像 ， 而 彩色 图 像 又 包括 RGB, HSI, YUV 空间 
等 不 下 10 种 ， 各 空间 特点 不 一 ; 从 图 像 空 间 的 角度 又 可 分 为 普通 图 像 和 纹理 图 
像 ， 当 图 像 区 域 一 系列 的 局 部 特性 是 稳定 的 、 缓 慢 变化 或 者 近似 周期 的 ， 则 该 
图 像 区域 具 有 不 变 的 纹理 ， 如 图 2-5 所 示 ， 而 且 ， 除 了 对 自然 场景 成 像 得 到 的 
图 像 之 外 ， 还 有 大 量 的 艺术 创作 图 像 ， 如 图 2-6 所 示 。 

3) 图 像 仅 是 现实 世界 的 表象 。 图 像 仅 仅 是 现实 世界 在 图 像 平面 的 成 像 ， 由 
于 成 像 过 程 中 的 复杂 因素 如 光照 、 遮 挡 、3D 到 2D 的 深度 信息 丢失 等 所 造成 图 
像 信息 的 损失 ， 图 像 的 特征 仅仅 是 真实 特征 的 表象 ， 并 不 能 完全 等 同 于 真实 目 
标 ， 即 真实 特征 的 差异 有 时 并 没有 明显 的 表象 差异 与 之 相对 应 ， 如 目标 对 象 和 
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图 2-6 视觉 幻象 和 超 现实 主义 艺术 图 像 (来 源 : Octavio Ocampo 和 Salvador Dali ) 


a) Forever Always b) Apparition of Face and Fruit Dish on a Beach 





背景 由 于 对 比 度 降 低 ， 而 在 边界 处 混淆 在 一 起 不 易 区 分 ;目标 对 象 与 背景 具有 
相似 的 颜色 或 纹理 等 情况 。 因 此 ， 很 难 仅 根据 简单 的 图 像 表象 特征 ， 如 图 像 的 
颜色 、 纹 理 、 边 缘 等 获得 正确 的 图 像 目 标 区 域 ， 而 不 得 不 借助 于 更 高 层 的 先 验 
知识 7。 

主观 原因 分 析 如 下 ， 

1) 建立 统一 的 数学 模型 存在 较 大 困难 。 由 于 面临 的 实际 问题 不 同 、 分 割 目 
的 不 一 ， 导 致 图 像 中 的 目标 对 象 和 背景 并 非 固定 不 变 ， 而 是 在 不 同 的 需求 和 应 
用 下 具有 不 同 的 定义 和 内 容 。 此 外 ， 研 究 者 们 自身 知识 结构 的 局 限 也 导致 无 法 
给 出 适用 所 有 情况 的 统一 数学 模型 。 

2) 受到 相关 学 科 发 展 的 制约 。 目 标 分 割 是 多 学 科 交 又 的 研究 领域 ， 受 到 诸 
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如 模式 识别 、 机 器 学 习 、 数 值 优 化 方法 等 学 科 的 影响 ， 虽 然 近 年 来 ， 这 些 领 域 
均 取 得 了 较 明 显 的 进步 ， 但 离 使 计算 机 具备 像 人 脑 一 样 复杂 的 分 析 处 理 能 力 还 
有 很 大 的 距离 。 只 有 随 着 各 学 科 的 综合 发 展 ， 目 标 分 割 才 会 不 断 有 新 的 突破 。 

3) 无 法 给 出 一 致 的 用 户 满意 度 标准 。 一 方面 ， 尚 没有 对 目标 分 割 方法 和 分 
割 结果 真正 客观 的 评价 标准 ， 通 常 只 能 人 为 地 建立 一 组 有 限 的 实验 图 像 以 及 其 
对 应 的 真实 分 割 结果 ， 然 后 通过 实验 对 比分 割 方法 在 该 组 图 像 上 某 几 方 面 的 性 
能 ; 另 一 方面 ， 由 于 需求 差异 以 及 用 户主 观 方面 的 原因 ， 也 导致 即使 同样 的 分 
割 结果 在 不 同 的 应 用 背景 下 ， 对 不 同 的 用 户 也 可 能 存在 完全 不 同 的 评价 结 

总 之 ， 尽 管 长 期 以 来 人 们 为 研究 目标 分 割 问题 做 出 了 很 大 努力 ， 但 上 述 原 
因 导致 很 难 实现 一 种 普 适 的 方法 ， 而 只 能 针对 特定 问题 和 具体 的 需求 给 出 合理 
的 解决 方法 ， 在 处 理 速度 、 精 度 等 关键 性 指标 上 做 出 均衡 或 侧重 。 
2.2.3 图 像 目 标 分 割 技 术 

图 像 目标 分 割 技术 历经 数 十 年 的 发 展 ， 其 中 用 到 的 算法 种 类 繁多 、 不 可 胜 
Z, 虽然 本 书 将 图 像 分 割 分 为 狭义 图 像 分 割 和 目标 分 割 , 但 这 两 者 中 的 许多 概 
念 、 思 想 和 方法 都 有 着 非常 密切 的 联系 ， 而 且 前 者 是 后 者 的 重要 基础 。 因 此 ， 
不 能 简单 地 抛 开 狭义 图 像 分 割 而 谈 目 标 分 制 ， 有 必要 对 两 者 进行 综合 的 分 析 和 


































































































近年 来 ， 涌 现 了 许多 不 同 的 图 像 分 制 分 类 标准 ， 比 如 ， 按照 用 户 参 与 的 程 
度 可 分 为 自动 、 交 互 式 与 纯 手工 的 分 割 方 法 ; 根据 利用 区 域内 相似 性 还 是 区 域 
间 相 异性 原理 的 区 别 可 分 为 基于 区 域 、 基 于 边界 或 者 两 者 结合 的 算法 ; 依据 分 
割 结 果 的 确定 性 与 否 可 以 分 为 软 分 割 与 硬 分 割 等 。 这 些 划 分 都 比较 粗糙 ， 不 能 
很 好 地 体现 狭义 图 像 分 割 与 目标 分 割 各 自 的 特点 ， 本 市 根据 狭义 图 像 分 割 与 目 
标 分 割 最 显著 的 特点 ， 即 狭义 图 像 分 割 一 般 通 过 数据 驱动 ， 而 目标 分 割 往往 需 
要 知识 驱动 ， 对 两 者 展开 介绍 。 

1. 数据 驱动 的 图 像 分 割 

图 像 分 割 算 法 一 般 基 于 亮度 值 的 两 个 基本 特性 之 一 : ESE PE AE 。 
针对 第 1 个 特性 ， 可 以 利用 亮度 的 不 连续 变化 分 割 图 像 ， 如 图 像 的 边缘 。 针 对 
第 2 个 特性 ， 可 以 依据 事先 制定 的 准则 将 图 像 分 割 为 相似 的 区 域 ， 门 限 处 理 、 
区 域 生长 、 区 域 分 类 和 聚合 都 是 这 类 方法 的 实例 。 围 绕 着 这 两 个 基本 特性 ， 传 
统 的 图 像 分 割 方法 又 可 以 粗 分 为 基于 边缘 的 分 割 、 基 于 阔 值 的 分 制 、 基 于 区 域 
的 分 割 三 个 大 类 。 
















































































" 34 图 像 目标 的 表示 与 识别 


(1) 基于 边缘 的 分 割 方法 

边缘 检测 是 在 灰 度 图 像 分 割 中 广泛 应 用 的 一 种 技术 ， 它 基于 在 区 域 边缘 处 梯 
度 变化 剧烈 的 假设 ， 试 图 通过 检测 区 域 间 的 边缘 来 达到 图 像 分 制 的 目的 。 在 灰 度 
图 像 中 ， 梯 度 由 相 邻 像素 的 灰 度 级 差异 表示 ， 和 常用 的 灰 度 图 像 边缘 检测 算 子 有 So- 
bel 算 子 、Laplacian 算 子 、Laplacian of Gaussian (LOG) 算 子 、Canny 算 子 等 。 

根据 数学 特性 又 将 这 些 算 子 分 为 两 类 : 与 Sobel 算 子 类 似 的 称 为 一 阶 微分 算 
子 ， 而 Laplacian 算 子 、LOG 算 子 、Canny 算 子 均 属 于 二 阶 微分 算 子 。 一 阶 微分 算 
子 利 用 的 是 图 像 在 筷 或 了 方向 上 的 一 阶 导 数 在 边缘 处 取 极 值 或 0 的 特性 ， 而 二 阶 
微分 算 子 则 利用 和 了 的 二 阶 导数 。 在 彩色 图 像 中 ， 边 缘 来 自 于 三 维 颜色 空间 的 
突变 ， 可 以 将 现 有 的 灰 度 边缘 检测 技术 直接 应 用 于 彩色 图 像 的 每 个 分 量 ， 再 根据 
一 定 的 方法 进行 合并 ， 常 用 的 合并 方法 有 均 方 根 、 求 和 、 取 最 大 绝对 值 等 。 

除了 直接 利用 边缘 检测 算 子 提取 图 像 边缘 外 ， 还 有 一 些 方法 也 相继 被 提出 ， 
如 边缘 松弛 法 、 边 界 跟 踪 、 图 像 滤波 、 多 尺度 变换 和 主动 轮廓 (Active Contour) 
等 。 如 图 2-7 所 示 ， 基 于 边缘 检测 的 方法 仅 利 用 了 图 像 的 梯度 信息 ， 当 图 像 质 





























量 较 好 时 定位 精度 高 ， 但 受 噪 声 和 图 像 质 量 的 影响 常常 会 检测 出 伪 边 缘 ， 导 致 
错误 的 分 割 结果 。 而 且 一 组 边缘 像素 点 很 少 能 完整 地 描绘 目标 的 轮廓 ， 因 此 ， 
典型 的 做 法 是 在 使 用 边缘 检测 算法 后 紧 跟 着 使 用 连接 过 程 ， 将 边缘 像素 组 合成 
有 意义 的 边界 。 














图 2-7 对 图 像 进行 边缘 检测 
a) 原 图 像 b) 分 割 结果 
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(2) 基于 阔 值 的 分 割 方法 

闷 值 法 是 一 种 最 为 简单 的 利用 颜色 信息 进行 图 像 分 割 的 方法 ， 在 灰 度 图 像 
分 割 中 ， 它 基于 这 样 的 假设 : 同一 区 域 的 内 部 像素 ,它们 的 灰 度 值 相 似 ， 但 不 
同 区 域 的 像素 灰 度 差 异 较 大 ， 其 在 灰 度 直方 图 上 的 反映 就 是 不 同 的 区 域 对 应 不 
同 的 波峰 。 则 分 割 时 ， 选 取 的 阔 值 应 位 于 直方 图 波 谷 处 。 按 照 选 取 域 值 的 数量 
又 可 分 为 单 国 值 法 和 多 国 值 法 。 在 单 闵 值 分 割 中 ， 分割 的 结果 为 两 类 区 域 ; 在 
多 靖 值 分 割 中 ， 分 割 的 结果 为 多 类 区 域 。 

对 于 彩色 图 像 而 言 ， 由 于 其 包含 3 个 颜色 分 量 ， 在 三 维 直方 图 中 确定 阔 值 
是 比较 困难 的 ， 如 果 阔 值 的 选择 分 别 在 每 个 颜色 分 量 上 单独 进行 ， 则 忽略 了 3 
个 分 量 间 的 相关 性 ， 导 致 分 割 结果 不 准确 。 通 常 ， 彩 色 图 像 的 阔 值 分 制 采用 降 
维 的 方法 ， 从 三 维 颜 色 空间 向 低 维 投影 ， 形 成 二 维 平面 或 一 维 直 线 ， 然 后 在 低 
维 上 选择 合适 的 阔 值 ” 。 

基于 阔 值 的 分 割 方法 实现 简单 ， 但 存在 以 下 明显 的 缺点 : 对 于 不 存在 明显 
波峰 和 波 谷 的 直方 图 〈 受 噪声 干扰 ， 或 者 彩色 图 像 各 分 量 的 直方 图 本 身 就 可 能 
不 存在 明显 波 谷 ) ， 得 不 到 满意 的 分 割 结果 ; 仅 考 虑 了 图 像 的 颜色 COREE) fü 








J 






























































息 ， 而 忽略 了 图 像 的 空间 信息 ， 所 以 对 噪声 非常 敏感 ， 如 图 2-8 Pros, AW 
白色 建筑 物 也 被 当做 船体 上 的 目标 了 。 





图 2-8 对 图 像 进行 二 值 化 分 割 
a) 原 图 像 b) 分 割 结果 








(3) 基于 区 域 的 分 割 方法 
基于 区 域 的 图 像 分 割 考虑 了 图 像 的 空间 信息 ， 如 图 像 灰 度 、 纹 理 、 颜 色 和 
像素 统计 特性 等 ， 进 而 将 目标 对 象 划分 为 同一 区 域 的 分 割 方法 。 常 见 的 区 域 分 
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割 方法 主要 有 : 区 域 生长 、 区 域 分 裂 、 区 域 合并 和 分 水 岭 分 割 方法 。 

区 域 生 长 和 区 域 分 裂 是 两 种 典型 的 串 行 区 域 技术 ， 区 域 生长 法 的 基本 思想 
是 : 根据 一 定 的 相似 性 原则 ， 将 满足 这 一 原则 的 像素 合并 起 来 构成 区 域 ， 其 关 
键 点 是 生长 种 子 和 生长 准则 的 选取 ， 效 果 如 图 2-9 所 示 ; 而 区 域 分 裂 法 恰恰 相 
反 ， 则 是 将 整 幅 图 像 作为 原始 分 割 结果 ， 当 分 割 结果 不 能 满足 一 定 的 均匀 、 相 
似 性 时 ， 就 将 其 分 裂 ， 直 到 每 个 区 域内 部 都 相似 为 止 。 























图 2-9 对 图 像 进 行 定 点 区 域 生 长 








a) BEHR b) 分 割 结果 


两 者 结合 的 方法 通常 又 称 区 域 合 并 ， 它 将 相 邻 且 具 有 相似 的 区 域 合 并 ， 而 
将 明显 不 相似 的 区 域 进行 分 裂 。 基 于 区 域 生 长 、 区 域 分 裂 的 方法 受 噪声 的 影响 
比较 小 ， 效 果 优 于 阔 值 法 ， 但 区 域 生 长 依赖 于 种 子 点 的 选择 和 生长 顺序 ， 而 区 
域 分 裂 则 可 能 会 使 边界 被 破坏 。 

分 水 岭 分 割 方法 ， 是 一 种 基于 拓扑 理论 的 数学 形态 学 的 分 割 方法 ， 基 本 思 
想 是 将 图 像 看 做 测 地 学 上 的 拓扑 地 貌 ， 像 素 的 灰 度 值 表示 该 点 的 海拔 ， 每 一 个 
局 部 极 小 值 及 其 影响 区 域 称 为 集 水 分， 而 集 水 例 的 边界 则 形成 分 水 岭 。 分 水 内 
的 概念 和 形成 可 以 通过 模拟 浸入 过 程 来 说 明 。 缺 陷 : 对 噪声 极为 敏感 ， 易 产生 
过 分 割 现 象 ， 相关 研究 人 员 呈 提出 了 一 种 将 分 水 岭 算 法 与 自动 种 子 区 域 生长 相 
结合 的 分 割 算法 ， 有 效 解决 了 算法 中 过 分 割 的 现象 ， 如 图 2-10 所 示 。 

2. 知识 驱动 的 目标 分 割 

主动 视觉 理论 ”的 建立 ， 为 利用 高 层 先 验 知识 指导 目标 分 制 提供 了 强 有 力 
的 方法 和 理论 依据 。 近 年 来 ， 越 来 越 多 的 高 层 先 验 知识 在 计算 机 上 通过 各 种 形 
式 表 达 出 来 ， 并 且 与 低层 图 像 特征 相 结 合 ， 共 同 指导 图 像 目标 分 割 。 本 节 从 分 
割 过 程 中 所 采用 的 先 验 知识 的 种 类 出 发 ， 对 各 种 目标 分 割 方法 进行 分 类 阐述 
(目标 分 割 往往 采用 多 种 先 验 知识 ， 而 不 是 单独 一 种 ， 这 里 不 作 严 格 的 区 分 ) 。 
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a) b) 


图 2-10 ”对 图 像 进 行 分 水 岭 分 割 
a) BEER b) 分 割 结果 








(1) 外 观 信息 

外 观 信 息 是 对 某 一 个 或 某 一 类 目标 (如 人 、 汽 车 、 草 地 、 海 、 天 空 ) 外 表 
特性 或 共性 的 描述 ， 包 括 外 观 颜色 、 纹 理 等 。 典 型 的 用 于 表示 外 观 信息 的 方式 
有 种 子 点 、 统 计 直 方圆 、 聚 类 、 有 限 混 合 模型 等 ， 通 常 外 观 模 型 需要 根据 一 定 
数量 的 样本 数据 ， 经 过 机 器 学 习 的 方法 训练 而 来 。 在 应 用 外 观 信 息 进 行 目标 分 
制 的 方法 中 ， 最 简单 的 是 Adobe 公司 的 图 像 处 理 软件 Photoshop "P f JE T.H. 
(Magic Wand) ， 它 通过 在 一 定 容 差 范围 内 ， 寻 找 与 用 户 指定 的 种 子 点 相 匹 配 的 
BR, SEE ERAT SU, 但 由 于 通常 情况 下 目标 对 象 外 观 并 非 简 单 的 由 某 几 个 种 
子 点 就 能 正确 表达 ， 而 且 它 孤立 的 考虑 颜色 的 匹配 度 而 没有 考虑 到 像素 的 空间 
相关 性 ， 所 以 分 割 效 果 常 不 能 令 人 满意 。 

Wang 等 人 551 以 局 部 的 目标 对 象 和 背景 外 观 样本 像素 为 起 始点 ， 利 用 信念 传 
播 方法 不 断 地 对 周围 像素 进行 前 、 背 景 估 计 ， 并 同步 更 新 外 观 颜色 模型 ， 随 后 
又 提出 校 验 用 于 更 新 外 观 颜 色 模型 的 样本 的 方法 ， 并 成 功 地 实现 了 实时 的 目标 
SRTA; Groweut 利用 细胞 自动 机 的 原理 ， 以 用 户 输入 的 目标 和 背景 样本 为 起 
始点 ， 和 迭代 地 对 其 外 围 像素 进行 “竞争 在 食 ”， 最 终 实现 稳定 的 “群落 ”而 完成 
分 割 ; 随机 游 走 计算 其 他 像素 随机 游 走 到 达 各 样本 笔划 的 概率 ， 取 概率 最 高 的 
笔划 标签 作为 对 像素 的 分 制 ; Boykov EAL” 利用 灰 度 统计 直方 图 作为 外 观 模 
型 ， 同 时 结合 图 像 对 比 信息 (FASB RE IK REY L TERT TE SOR) 进行 图 
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像 和 视频 目标 分 制 ， 并 在 其 基础 上 结合 基于 level set 的 配 准 目标 轮廓 作为 形状 先 
验 进行 医学 图 像 目 标 分割 。 在 彩色 图 像 分 割 中 ， 大 多 采用 高 斯 混合 模型 代替 直 
方 图 模型 来 作为 外 观 颜 色 模 型 。 

(2) 形变 信息 

形变 信息 通常 由 形变 模型 指定 ， 形 变 模 型 一 般 指 主动 轮廓 模型 (Active Con- 
tour Model) ， 是 基于 微分 几何 、 弹 性 力学 等 数学 和 物理 工具 定义 的 一 类 具有 变形 
能 力 的 模型 。 由 于 主动 轮廓 模型 一 般 是 基于 目标 轮廓 的 正则 化 约束 (如 连续 性 、 
光滑 性 、 封 闭 性 等 ) ， 而 不 是 目标 形状 信息 ， 所 以 也 被 称 为 自由 形变 模型 ( Free- 
form Deformable Model) 。 它 又 可 分 为 参数 化 主动 轮廓 模型 (Parametric Active 
Contour Model, PACM) 和 几何 主动 轮廓 模型 ( Geometric Active Contour Model, 
GACM) 。 

最 早 的 PACM 由 Kass 等 人 于 1987 年 提出 ， 通 常 又 称 它 为 Snake 模型 。 其 原 
理 就 是 使 轮廓 模型 在 外 力 和 内 力 的 作用 下 向 目标 的 边界 通 近 ， 外 力 推 动 轮廓 曲 
线 向 边界 移动 ， 而 内 力 保持 轮廓 的 光滑 性 。 在 数学 上 ， 轮 廓 可 表示 为 参数 曲线 : 









































C(s)=[x(s), ¥)], se 10, 1] (2-1) 
而 最 终 需 寻找 使 下 式 中 内 能 和 外 能 加 权 最 小 的 参数 化 曲线 : 

ECC)» | [By CO) +E CC) Ms (2-2) 
内 部 能 量 表示 为 

BaO =h a x P re | (2-3) 














WP, a 和 8B 分别 表示 曲线 的 弹性 和 刚性 系数 。 一 阶 项 保证 曲线 被 均匀 且 不 过 度 
拉 伸 ， 二 阶 项 用 来 减 小 曲线 的 曲率 。 

外 部 能 量 表示 为 

E.,,(C) = -|VIG, CC) *1(C)] (2-4) 

AF, 为 灰 度 图 像 ，* 为 卷 积 算 子 ，G, 是 标准 差 为 o 的 二 维 Gaussian 函数 。 

PACM 将 目标 对 象 轮廓 的 连续 性 、 光 滑 性 及 封闭 性 等 先 验 约束 知识 与 低层 图 
像 特征 (这 里 是 边缘 、 梯 度 特 征 ) 巧妙 的 结合 ， 有 效 地 解决 了 原来 目标 边界 提 
取 时 出 现 病态 、 没 有 唯一 解 的 情况 。 但 是 ， 它 也 存在 以 下 不 足 : 模型 初始 化 需 
人 工 参 与 且 对 初始 位 置 较为 敏感 ; 曲线 参数 化 后 精度 不 高 ; 求解 能 量 时 容易 陷 
人 局 部 极 值 ; 不 具备 拓扑 结构 自动 变化 能 力 (曲线 分 裂 、 合 并 ) ， 不 能 同时 分 割 
多 个 目标 对 象 ， 外力 场 的 作用 范围 小 等 。 

针对 参数 化 轮廓 模型 的 不 足 ， 相 关 领 域 的 研究 人 员 主 要 从 以 下 几 方 面 对 它 
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进行 了 改进 : 在 轮廓 线 方面 ， 提 出 了 基于 B- 样 条 的 PACM， 基 于 NURBS 的 
PACM 和 用 Fourier 级 数 表示 轮廓 线 的 PACM; 在 轮廓 线 拓 扑 变化 能 力 方面 ， 
T-PACM 通 过 在 图 像 区 域 建立 三 角 网 格 解决 了 拓扑 变化 的 问题 ; ER APP FTE at PR A 
的 方法 上 ， 提 出 用 有 限 元 方法 、 神 经 网 络 、 动 态 规划 、 贪 焚 算 法 和 遗传 算法 等 
替换 原来 的 有 限 差分 法 进行 优化 求解 ; 由 于 外 力 场 的 作用 是 驱动 轮廓 曲线 向 目 
标 边 界 运动 ， 对 于 PACM 的 性 能 上 起 着 至 关 重 要 的 作用 ， 故 而 成 为 PACM 研究 
的 关键 ， 其 中 最 为 著名 是 气球 力 模型 (Balloon Force) 和 梯度 向 量 流 模 型 ( Gra- 
dient Vector Flow, GVF) 。 

GACM 正在 逐渐 成 为 图 像 目 标 分 割 的 研究 热点 ， 它 是 以 曲线 演化 理论 
(Curve Evolution Theory) 以 及 水 平 集 方法 (Level Set Method) 为 基础 的 活动 轮 
BEES. 5j PACM 一 样 ， 它 通过 与 低层 图 像 特 征 结合 来 恢复 目标 对 象 的 边界 ， 
不 同 的 是 GACM 的 轮廓 线 是 用 一 个 更 高 维 水 平 集 函 数 的 等 值 曲线 来 隐 含 地 表示 
的 ， 通 过 不 断 更 新 这 个 水 平 集 函 数 达到 曲线 演化 的 目的 ， 而 利用 有 效 地 更 新 水 
平 集 隐 数 ， 即 可 随意 地 改变 所 表示 曲线 的 拓扑 ， 从 而 克服 了 PACM BEAT SURE 
有 复杂 边界 或 拓扑 的 目标 ， 也 不 能 同时 分 割 多 个 目标 等 拓扑 变化 的 问题 。 

(3) 形态 信息 

形态 (包括 形状 和 姿态 ) 信息 是 比 正则 化 约束 更 具体 、 更 高 层 的 对 目标 的 
认识 和 理解 ， 通 常 “ 有 形 ” 的 目标 在 其 形态 上 会 存在 共性 以 及 局 部 范围 的 变化 ， 
对 目标 形态 的 描述 就 是 对 这 种 共性 和 变化 的 描述 ， 通 常 的 描述 方法 有 基于 原型 
的 方法 和 基于 解析 式 的 方法 。 解 析 式 方法 是 当 目 标 形 态 的 几何 结构 比较 好 ， 即 
可 以 由 一 族 曲 线 或 几何 图 形 (近似 的 ) 表示 时 ， 通 过 参数 化 的 解析 式 的 方式 来 
定义 目标 形态 模型 。 解 析 式 描述 了 目标 形态 的 共性 ， 而 参数 的 定义 域 则 确定 了 
形态 的 变化 范围 。 当 目标 形态 不 能 通过 解析 式 的 方法 确定 时 ， 基 于 原型 的 方法 
提供 了 较为 合理 的 解决 方案 ， 它 常 以 二 值 图 像 模板 的 形式 来 刻画 目标 形态 ， 以 
一 组 具有 代表 性 的 模板 来 确定 目标 形态 的 变化 范围 ， 最 后 ， 通 过 匹配 的 方法 与 
图 像 特征 对 应 。 

最 典型 的 基于 原型 的 方法 是 利用 模板 的 平移 、 旋 转 、 缩 放 等 简单 变换 ， 使 
其 与 图 像 特征 (如 边缘 ) 匹配 ， 最 后 ， 自 动 进行 目标 轮廓 提取 。 然 而 ， 实 际 情 
况 是 ， 同 类 目标 个 体 存 在 差异 ， 而 不 同类 目标 在 形态 差异 可 能 更 大 ， 简 单 的 变 
换 并 不 能 有 效 地 解决 这 种 差异 。 因 此 ， 除 非 模板 库 足 够 庞大 ， 能 包罗 万 象 ， 否 
则 因为 这 些 差异 导致 的 分 割 不 准确 将 在 所 难免 。 可 以 利用 主 分 量 分 析 法 对 模板 
中 的 形态 进行 学 习 ， 得 到 平均 形态 和 变形 参数 ， 而 其 主动 外 观 模型 (Active Ap- 
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pearance Model) 更 是 考虑 形态 模型 内 部 的 外 观 信息 ， 在 纹理 图 像 分 割 方面 表现 
突出 。 

在 基于 解析 式 对 形态 进行 参数 化 描述 的 方法 中 ， 橡 皮 模 型 (Rubber Mask ) 
以 及 画报 结构 模型 (Pictorial Structure Model, PSM) 是 较 早 期 的 方法 。Kumar 等 
人 "中 利用 学 习 而 得 的 牛 和 马 的 LPSM， 通 过 各 层 与 图 像 低 层 特征 匹配 ， 结 合 各 层 
的 外 观 信息 完成 对 牛 和 马 的 自动 分 割 。 如 图 2- 11a 所 示 ，Wang 等 人 :和 利用 人 脸 
检测 技术 结合 人 体 头 和 肩 的 解析 式 形态 模型 实现 人 体 上 身 的 定位 ， 通 过 迭代 图 
割 优 化 不 断 地 更 新 外 观 GMM 实现 对 人 体 上 身 的 自动 分 割 。 如 图 2-11b 所 示 ， 骨 
架 模 型 (Skeleton Model) 也 是 一 种 常用 的 表示 人 体 或 饮 链 模型 ( Articulated 
Model) 形态 的 模型 ，Kohli 等 人 “利用 它 实 现 了 多 视图 间 目 标 分 割 与 姿态 估计 
的 同步 。 
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a) b) 


Bl 2-11 解析 式 形态 模型 举例 
a) 人 体 上 身 模型 b) 骨架 模型 





(4) 目标 识别 引入 的 信息 

目标 识别 引入 的 信息 通常 是 与 目标 对 象 所 属 的 类 相关 的 ( Class- specific ) , 
是 对 目标 形状 、 轮 廓 、 外 观 等 特征 所 具有 的 共性 的 提取 和 学 习 ， 通 过 图 像 中 的 
角 点 、 线 、 边 缘 、 图 像 块 等 形式 给 出 〈 典 型 的 特征 检测 算 子 与 描述 算 子 见 本 书 
第 4 章 内 容 ) Borenstein 等 人 ' 1 提出 基于 图 像 块 (patch-based) 的 自动 目标 分 
割 方法 ， 直 接 采 用 包含 目标 局 部 形态 、 外 观 信息 的 图 像 块 集合 来 表示 目标 (这 
些 图 像 块 由 预先 分 割 好 的 图 像 训 练 得 到 ) ， 该 方法 通过 图 像 块 与 图 像 中 待 分 割 目 
标的 匹配 以 及 分 割 结果 所 应 具有 的 全 局 一 致 性 约束 相 结 合 ， 实 现 了 对 马 这 类 图 
像 目 标的 分 制 。 随 后 ，Borenstein 又 提出 将 基于 图 像 块 的 高 层 信 息 与 图 像 低 层 信 
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息 结 合 来 改进 当 仅 利用 高 层 信息 或 仅 利 用 低层 信息 时 分 割 结果 不 精确 的 问题 。 

Levin 等 人 [提出 利用 CRF 对 基于 图 像 块 的 高 层 信息 与 低层 信息 同时 进行 
训练 ， 使 得 仅 需 少量 结合 低层 信息 的 图 像 块 就 能 达到 以 往 仅 考虑 高 层 信息 时 数 
百 块 图 像 块 才能 得 到 精确 分 制 。Shotton AE KT HE HII] TextonBoost 是 一 种 新 的 基 
F texton (包括 形状 和 纹理 信息 ) 的 特征 ， 并 利用 Boosting 分 类 器 对 训练 数据 中 
目标 的 texton 特征 进行 学 习 ， 最 后 通过 将 分 类 需 结 合 到 CRF 中 实现 上 下 文 相 关 
的 自动 目标 分 制 。Winn 等 人 :和 提出 的 自动 目标 分 割 方法 基于 局 部 组 成 部 件 的 空 
间 布 局 ， 考 虑 了 相 邻 部 件 间 的 空间 关系 ， 人 允许 部 件 的 任意 缩放 。 

图 像 目标 分 割 方法 与 应 用 场景 图 像 及 应 用 目的 有 关 ， 用 于 图 像 目 标 分 割 的 
场景 信息 也 有 有 亮度、 色彩、 纹理、 结构、 温度、 频谱 、 运 动 、 形 状 、 位 置 、 梯 
度 和 模型 等 。 由 于 图 像 的 多 义 性 和 复杂 性 ， 许 多 分 割 工作 无 法 完全 依靠 计算 机 
自动 完成 ， 而 手工 分 割 又 存在 工作 量 大 、 定 位 不 准确 的 难题 ， 因 此 ， 人 们 提出 
了 一 些 人 工 操作 和 计算 机 自动 定位 相 结合 的 方法 ， 充 分 发 挥 各 自 优 势 ， 实 现 图 
像 日 标的 快速 分 割 。 图 2-12 所 示 为 刘 陈 博士 设计 的 基于 智能 人 机 接口 的 即时 过 
程式 分 割 方法 ， 当 用 户 驱 动 鼠 标 对 目标 对 象 的 边界 进行 跟踪 时 ， 智 能 画笔 将 
动态 地 根据 图 像 局 部 统计 特征 估计 每 个 即时 时 刻 目 标 分 割 计算 所 需 的 待 分割 区 
域 、 外 观 样本 、 目 标 轮廓 等 即时 局 部 信息 ， 快 速 计算 局 部 分 割 结 果 并 及 时 反馈 。 

























































































图 2-12 妇女 图 像 即时 交互 分 割 过 程 截图 及 结果 





图 像 分 割 算法 的 评估 技术 有 很 多 种 ， 一 般 通 过 建立 统一 的 实验 平台 进行 评 
估 。 给 定 一 组 测试 数据 以 及 其 对 应 的 真实 分 割 结果 (通常 是 人 工 确定 的 ) ， 在 这 
组 测试 数据 上 进行 实验 并 得 到 实际 分 割 结果 ， 然 后 通过 比较 计算 耗 时 、 错 误 率 、 
整体 一 致 性 等 指标 ， 达 到 对 分 割 算法 的 评估 。 考 虑 到 评价 的 客观 性 ， 加 州 大 学 
伯克利 分 校 所 发 布 的 用 于 分 割 的 标准 图 像 库 ”， 被 许多 科研 工作 者 作为 测试 图 像 
数据 的 主要 来 源 。 
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2.3 目标 的 表示 与 描述 





在 图 像 预 处 理 和 图 像 分 割 之 后 ， 往 往 需 要 对 得 到 的 像素 集 用 更 为 简单 明确 
的 数值 、 符 号 或 图 来 表征 ， 这 些 数值 、 符 号 或 图 是 按 一 定 的 概念 和 公式 从 原 目 
标 区 域 中 产生 的 ， 它 们 反映 目标 区 域 基本 的 重要 信息 和 主要 特性 ， 这 些 数值 、 
符号 或 图 应 有 利于 人 或 计算 机 对 于 图 像 目 标的 分 析 和 理解 ， 它 们 通常 被 称 为 目 
标的 特征 〈 整 体 特征 ) 。 

基本 上 ， 表 示 一 个 目标 区 域 有 两 种 选择 : 一 是 用 其 外 部 特性 来 表示 区 域 
(如 它 的 边界 ) ; 二 是 用 其 内 部 特性 来 表示 区 域 (如 组 成 区 域 的 像素 ) 。 当 重点 关 
注目 标 区域 的 形状 特征 (Shape Feature) 时 ， 可 以 选用 外 部 表示 法 。 而 当 重 点 关 
注 区 域内 部 性 质 时 ， 可 以 选用 内 部 表示 法 ， 比 如 光谱 特征 (Spectrum Feature ) 
和 纹理 特征 (Texture Feature) 。 有 些 情况 下 ， 同 时 使 用 上 述 两 类 表示 方法 。 无 论 
哪 种 情况 ， 用 整体 特征 进行 目标 的 表示 和 描述 ， 对 尺寸 变化 、 平 移 和 旋转 都 不 
是 很 灵活 的 。 


2.3.1 光谱 特征 


相对 其 他 特征 而 言 ， 光 谱 特 征 (也 称 颜 色 特 征 ) 具有 描述 简便 直观 的 特点 ， 
而 且 对 大 小 、 方 向 都 不 敏感 ， 在 一 些 情况 下 表现 出 相当 强 的 鲁 棒 性 。 人 有 眼 对 彩 
色 的 分 辩 率 高 于 对 黑白 图 像 的 分 辨 率 ， 因 此 彩色 图 像 所 携带 的 信息 远 远 超过 了 
灰 度 图 像 。 但 只 用 光谱 特性 很 难 完整 而 准确 的 描述 一 个 具体 物体 ， 因 为 许多 不 
同 的 目标 所 表现 出 的 光谱 特征 可 能 相同 (如 全 色 人 遥感 影像 中 机 场 与 其 他 人 文 建 
筑 等 ) ， 这 使 得 其 应 用 容易 受 限 。 

1. 颜色 空间 

颜色 空间 又 叫 彩 色 空 间 、 颜 色 模型 ， 是 用 来 表示 颜色 的 三 个 参数 所 构成 的 
3D 空间 ， 是 颜色 抽象 表示 和 描述 的 方法 ， 是 在 某 些 标准 下 用 通常 可 接受 的 方式 
来 简化 的 颜色 规范 。 因 此 ， 颜色 空间 是 进行 颜色 信息 研究 的 理论 基础 。RGB、 
XYZ, HIS fil L' a^ b" 是 四 种 不 同 的 颜色 空间 ， 以 不 同 的 方式 描述 图 像 目 标的 颜 
RET 。 

人 类 能 够 感受 到 不 同 的 颜色 是 由 于 视网膜 中 有 三 种 不 同 的 感受 彩色 的 锥 细 
胞 ， 它 们 分 别 对 应 于 红 (R)、 绿 (6), E (B) 三 种 颜色 。 于 是 ， 人 有 眼 感 知 的 
所 有 颜色 都 可 以 看 做 是 红 、 绿 和 蓝 三 原色 的 不 同 组 合 。RGB 颜色 空间 是 最 基本 
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的 颜色 空间 ， 其 他 所 有 的 颜色 空间 都 是 由 它 经 过 线性 或 非 线性 变换 得 出 的 。 

XYZ 空间 包含 了 所 有 人 类 能 够 感觉 的 颜色 ,这 三 种 基色 是 虚拟 的 ， 使 得 颜 
色 比 配 全 部 为 正 值 ， 而 且 它 是 基于 实验 测定 的 颜色 匹配 函数 ， 因 此 它 不 同 于 
RGB 颜色 空间 只 是 表示 监视 器 所 能 显示 的 颜色 范围 ， 可 以 显示 所 有 的 颜色 。 

HIS (Hue Intensity Saturation) 空间 是 从 人 的 心理 感知 角度 建立 的 ， 最 能 体 
现 人 眼 的 视觉 特点 。 其 中 ，H 是 指 一 种 颜色 在 色谱 中 所 对 应 的 主 波 长 (色调 ) , 
S 相当 于 颜色 的 纯度 〈 饱 和 度 ) ，I 表 示 强 度 和 亮度 〈 密 度 ) 。 

L'a'b' 颜色 是 从 RGB 模式 转换 为 HSB 模式 和 CMYK 模式 的 桥梁 。 该 颜色 
模式 由 一 个 发 光 率 (Luminance) 和 两 个 颜色 (a Ab) 轴 组 成 ， 具 有 “独立 于 
设备 ”的 特性 ， 即 使 用 任何 一 种 监视 器 或 打印 机 ， 其 颜色 效果 不 变 。 

2. 颜色 统计 特性 

利用 光谱 特征 来 识别 目标 ， 主 要 工具 是 单 波段 图 像 的 灰 度 直方 图 ( 见 图 
2-13) 和 多 光谱 图 像 的 颜色 直方 图 。 直 方 图 的 横 轴 表示 颜色 的 等 级 ， 纵 轴 表 示 
具有 该 颜色 等 级 的 像素 在 整个 图 像 区 域 中 所 占 的 比例 。 直 方 图 是 图 像 区 域 中 灰 
度 等 级 或 颜色 等 级 出 现 次 数 的 统计 比较 结果 ， 不 能 反映 某 一 像素 色彩 值 的 位 置 


信息 。 
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图 2-13 单 波段 图 像 的 灰 度 直方 图 
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除了 颜色 直方 图 之 外 ， 还 有 颜色 和 矩 (Color Moment), HER (Color Sets) 
等 其 他 一 些 颜 色 特 征 表示 方式 。 颜 色 抢 的 数学 基础 是 任何 颜色 分 布 均 可 由 它 的 
和 矩 来 刻画 ， 并 且 由 于 大 部 分 信息 集中 在 低 阶 和 矩 ， 色 彩 的 统计 低 阶 矩 不 仅 能 描述 
区 域 大 众 主 要 的 色彩 分 量 ， 而 且 可 以 反映 出 区 域 中 的 色彩 分 布 情况 。 一 阶 矩 对 
应 色彩 均值 ， 二 阶 矩 对 应 色彩 标准 差 ， 三 阶 矩 对 应 色彩 侦 度 。 





2.3.2 纹理 特征 


纹理 是 人 类 视觉 系统 对 自然 界 物体 表面 现象 的 一 种 感知 ， 是 人 们 描述 和 区 
分 不 同 物体 的 重要 特征 之 一 。 如 图 2-14 所 示 ， 常 见 的 纹理 有 以 下 三 种 类 型 . 

1) 自然 纹理 。 这 类 纹理 来 源 于 真实 物体 表面 ， 大 多 呈现 不 规则 性 、 随 机 
性 强 。 

2) 人 工 合成 纹理 。 是 用 计算 机 算法 模拟 或 人 为 生成 的 表面 纹理 ， 一 般 形状 
规则 、 确 定 ， 分 布 均匀 。 

3) 混合 纹理 。 由 人 工 纹理 随机 分 布 于 物体 表面 或 自然 景物 中 构成 %|。 








c) 


图 2-14 常见 纹理 的 示例 


a) 自然 纹理 b) 人 工 合成 纹理 c) 混合 纹理 





纹理 最 明显 的 视觉 特 征 是 粒度 或 粗糙 性 、 方 向 性 、 重 复 性 或 周期 性 。 同 时 ， 
纹理 是 一 个 区 域 特 征 ， 与 观察 尺度 相关 。 从 人 们 的 视觉 感知 来 说 ， 纹 理 有 两 个 要 
R: 引起 视觉 感知 的 像素 灰 度 / 颜 色 变 化 模式 的 基本 单元 ， 即 纹理 基 元 ; 纹理 基 元 
按 一 定 规 律 排列 ， 变 现 为 某 种 规律 性 ， 也 可 以 表现 为 随机 性 。 所 以 ， 纹 理 特征 可 
以 认为 是 图 像 中 灰 度 、 颜 色 或 细小 的 结构 形状 在 空间 上 呈现 规律 的 变化 '”。 描 述 
纹理 的 方法 可 以 分 为 统计 方法 、 结 构 化 方法 和 基于 模型 的 方法 三 大 类 。 

1. 统计 方法 

从 区 域 统 计 的 角度 去 分 析 纹 理 图 像 的 方法 称 之 为 基于 统计 的 纹理 分 析 方 法 ， 
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该 类 方法 可 以 在 空域 和 频 域 中 进行 。 在 图 像 空 间 域 中 包括 矩 、 自 相关 函数 、 灰 
度 共生 矩阵、 边缘 频率 、 游 程 长 度 等 ; 在 频 域 中 有 频谱 分 析 法 。 

基于 空间 域 的 纹理 统计 方法 : 纹理 算是 与 纹理 基 元 形状 和 灰 度 空间 分 布 有 
关 的 几何 特征 ; 空间 自 相 关 函 数 的 基本 思想 是 利用 像素 之 间 的 灰 度 相似 性 计算 


























. 45. 








描述 图 像 纹理 的 规则 度 和 粗糙 度 ; IREF HE KE ETER T ED EA Biens Ta] E 
信息 的 弱点 ， 是 图 像 灰 度 变化 的 二 阶 统 计 度 量 ; 边缘 频率 通过 检测 边缘 分 布 的 
出 纹理 的 粗糙 度 、 对 比 度 、 随 机 性 、 方 向 性 等 








一 阶 和 二 阶 统计 量 ， 可 以 度量 
属性 。 
频谱 技术 利用 传 里 叶 变 换 


























将 空间 域 的 纹理 图 像 变换 到 频率 域 中 ， 从 而 








获得 在 空间 域 不 易 提 取 的 纹理 特征 ， 主 要 用 于 通过 识别 频谱 中 高 能 量 的 罕 
波峰 寻找 图 像 中 的 整体 周期 性 i。 利用 统计 的 方法 对 频率 特性 进行 度量 ， 
可 以 派生 出 许多 纹理 特征 的 描述 子 (直方 图 、 烂 、 均 值 、 方 差 、 斜 度 





等 ) 。 

2. 结构 化 方法 

结构 化 方法 有 两 个 步骤 : 
一 是 纹理 基 元 的 提取 ; 二 是 发 
现 图 像 纹理 中 基 元 的 排列 规则 。 
通常 纹理 基 元 由 图 像 中 具有 均 
匀 灰 度 的 区 域 构成 。 纹 理 基 元 
具有 面积 、 周 长 、 偏 心率 、 方 
向 、 延 伸 度 、 和 矩 等 特征 。 结 构 
化 分 析 方 法 通常 首先 确定 纹理 
基 元 ， 然 后 根据 句法 模式 识别 
理论 ， 利 用 形式 语言 对 纹理 的 
排列 规则 进行 描述 。 图 2-15 
所 示 为 纹理 的 结构 化 描述 。 

结构 化 方法 的 优点 是 有 利 
于 对 纹理 构成 的 理解 和 高 层 检 
索 使 用 ,适合 于 描述 人 工 规则 
纹理 。 而 对 于 自然 纹理 来 说 ， 
纹理 分 布 的 随机 性 使 得 纹理 基 
元 提取 相当 困难 ， 基 元 之 间 的 
































图 2-15 纹理 的 结构 化 描述 


a) 纹理 基 元 b) HAJ 





i] SaS 4 





成 的 模式 





c) Hi SaS 和 其 他 规则 生成 的 二 维 纹理 模式 
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排 布 规则 不 易 用 确定 的 数学 模型 描述 。 因 此 ， 结 构 化 方法 在 随机 纹理 描述 中 应 
用 不 多 。 

3. 基于 模型 的 方法 

基于 纹理 模型 的 方法 是 通过 所 建立 的 图 像 模型 来 描述 纹理 的 。 常 见 的 纹理 
模型 方法 有 Markov 随机 场 、 自 回归 模型 和 分 形 维 模型 '” Markov 随机 场 ( 简 
称 MRF) 是 广泛 使 用 的 纹理 模型 ， 该 模型 在 二 维 空间 分 析 纹 理 图 像 的 灰 度 变 化 ， 
获得 图 像 中 局 部 空间 上 下 文 信息 。 自 回归 模型 的 系数 表征 纹理 的 特点 和 类 型 ， 
对 于 粗 纹理 来 说 ， 自 回归 模型 的 邻 域 系 数 是 相近 的 ， 而 对 于 细 纹 理 来 说 ， 自 回 
归 模 型 的 邻 域 系数 具有 很 大 的 不 同 。 

许多 自然 物体 表面 在 不 同 斥 度 上 呈现 粗糙 性 和 自 相 似 性 ， 分 形 维 模型 是 
度量 这 些 特性 的 有 力 工 具 。 分 形 维 模型 的 重要 特征 包括 : 分 形 维 大 小 与 人 们 
对 物体 表面 粗糙 程度 的 视觉 感知 具有 一 致 性 ， 即 光滑 的 物体 表面 具有 较 小 的 
分 形 维 值 ， 而 较为 粗糙 的 表面 具有 较 大 的 分 形 维 值 ; 分 形 维 具 有 尺度 不 变 
性 ， 物 体 表面 的 分 形 维 模型 广泛 应 用 于 物体 的 粗糙 度 、 不 规则 性 、 自 然 纹理 
的 分 析 。 












































2.3.3 形状 特征 


对 于 刚体 目标 来 说 ， 形 状 是 其 固有 的 一 个 本 质 特征 ， 形 状 特 征 表达 的 一 条 
重要 准则 是 要 求 对 目标 的 位 移 、 旋 转 及 尺度 缩放 具有 不 变性 ， 因 此 利用 形状 特 
E 来 描述 目标 无 疑 是 复杂 背景 下 目标 自动 识别 的 一 个 重要 方向 。 形 状 特征 可 以 
为 空间 域 几何 特征 和 变换 域 几何 特征 两 个 大 类 。 

1. 空间 域 几何 特征 

在 经 典 的 几何 理论 中 ， 面 积 、 周 长 、 长 度 、 宽 度 、 主 轴 方 向 、 四 凸 面积 、 
紧密 度 、 实 心 度 及 偏心 率 、 曲 率 这 些 特征 得 到 了 广泛 应 用 。 面 积 和 周 长 可 以 很 
容易 地 从 目标 分 割 的 过 程 中 计算 出 来 。 面 积 是 物体 总 尺寸 的 一 个 方便 的 度量 ， 
面积 只 与 该 物体 的 边界 有 关 ， 而 与 其 内 部 灰 度 级 的 变化 无 关 。 物 体 的 周 长 在 区 
别 刚体 目标 时 特别 有 用 ， 一 个 形状 简单 的 物体 用 相对 较 短 的 周 长 来 包围 它 所 占 
有 的 面积 。 

当 一 个 目标 从 图 像 中 分 割 出 来 后 ， 计 算 它 在 水 平和 垂直 方向 的 跨度 也 是 很 
容易 的 ， 只 需 知道 物体 的 最 大 和 最 小 行 / 列 号 就 可 以 了 。 但 对 具有 随机 走向 的 物 
体 ， 水 平和 垂直 并 不 一 定 是 感 兴趣 的 方向 。 在 这 种 情况 下 ， 有 必要 确定 物体 的 
主轴 并 测量 与 之 有 关 的 长 度 和 宽度 。 当 物体 的 边界 已 知 时 ， 有 几 种 方法 可 以 确 
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定 一 个 物体 的 主轴 : 可 以 算出 物体 内 部 点 的 一 条 最 佳 拟 合 直线 〈 或 曲线 ) ; 也 可 
LIMIE (Moments) 的 计算 得 出 ， 关 于 和 矩 的 概念 将 在 第 4 章 4.3 节 讨 论 ; 应 用 物 
体 的 最 小 外 接 矩 形 (MER) 也 能 进行 计算 1 。 

紧密 度 是 在 一 定 程度 上 描述 区 域 紧 凑 型 的 全 局 性 形状 测度 ， 当 形状 为 圆 时 ， 
紧密 度 为 最 小 值 1， 它 是 一 个 旋转 、 尺 度 及 平移 不 变量 ， 又 是 一 个 非 矢量 数值 ; 
偏心 率 为 区 域 的 主轴 和 次 轴 的 比率 ， 它 区 分 不 同 宽度 目标 的 能 力 比 较 强 ， 长 而 
窄 的 物体 和 短 而 宽 的 物体 偏心 率 差 别 很 大 ; 曲率 描述 了 边界 上 各 点 在 边界 方向 
上 的 变化 情况 ， 是 人 类 视觉 系统 观察 场景 的 重要 线索 ， 是 从 轮廓 中 提取 出 来 的 
最 为 重要 的 特征 值 之 一 。 

2. 变换 域 几 何 特征 

因为 不 受 待 识别 目标 大 小 、 人 位置、 方位 的 影响 ， 不 变 矩 在 图 像 目 标识 别 方 
面 得 到 了 广泛 的 应 用 。 最 早 是 HuU 在 1962 年 通过 代数 不 变量 引入 矩 不 变量 ， 
再 对 几何 矩 进行 非 线性 组 合 ， 进 而 得 到 一 组 对 于 图 像 平 移 、 旋 转 、 尺 度 不 变 的 
和 矩 ， 并 引入 到 模式 识别 领域 。 近 年 来 经 过 许多 学 者 的 改进 ， 使 得 不 变 矩 特征 的 
描述 能 力 不 断 得 到 提高 。 
傅 里 叶 描 述 子 是 经 典 的 形状 描述 方法 ,易于 实现 ， 并 且 有 坚实 的 数学 理 
论 基 础 。 主 要 思想 是 : 在 提取 目标 之 后 ， 用 角 累 加 函数 表示 物体 边界 点 集 
合 ， 然 后 对 角 累 加 函数 进行 傅 里 时 变换 ， 可 以 生成 一 个 复 系数 集合 ， 这 些 系 
数 即 为 傅 里 叶 描 述 子 ' 1。 低频 系数 代表 了 一 般 的 形状 属性 ， 高 频 系 数 则 代 
表 了 形状 细节 ， 利 用 传 里 叶 系 数 还 可 以 构造 能 直接 反映 区 域 形 态 的 一 些 
参数 。 

形状 的 小 波 表 示 方 式 在 粗 尺度 上 给 出 形状 的 全 局 信息 ， 在 细 尺 度 上 给 出 局 
部 信息 。 由 于 小 波 变换 提供 了 多 分 辨 率 表 示 ， 因 此 目标 识别 的 技术 方案 可 以 
根据 输入 图 像 的 尺度 灵活 调整 。 如 图 2-16 所 示 ， 对 原 图 像 (左上 ) 进行 了 三 
个 级 别 (尺度 ) 的 二 维 快速 小 波 变换 ， 结 果 是 将 其 划分 为 子 图 像 的 集合 ”1 ; 
在 第 一 级 小 波 变 换 时 ， 原 图 像 被 划分 为 一 个 低频 子 图 像 LL 和 三 个 高 频 子 图 像 
(LH, HL, HH); 二 级 小 波 变 换 是 对 第 一 级 得 到 的 低频 子 图 像 LL 进行 递归 分 
解 的 过 程 ， 第 一 级 分 解 得 到 的 三 个 高 频 子 图 像 保 持 不 变 ; 更 高 级 的 小 波 分 解 
以 此 类 推 。 可 见 ， 低 频 子 图 像 LL 是 原 图 像 在 低 分 辨 率 上 的 一 个 近似 ， 剩 余 的 
三 个 子 图 像 都 包含 高 频 成 分 ， 它 们 在 不 同 的 分 辨 率 和 方向 上 表示 了 原 图 像 的 


高 频 细 节 。 
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图 2-16 三 个 尺度 下 的 二 维 小 波 变 换 


2.4 特征 空间 的 优化 


确定 合适 的 特 生 





FE 空间 是 目标 识别 的 一 个 关键 的 问题 。 如 果 所 选用 的 特征 空 





间 能 使 同类 目标 分 布 具有 紧 致 性 ， 不 同类 别 目 标 彼此 分 开 ， 即 各 类 样品 能 分 布 
在 该 特征 空间 中 彼此 分 隔 开 的 区 域内 ， 这 就 为 分 类 融 设 计 提 供 恨 好 的 基础 。 反 





之 ， 如 果 不 同类 别 的 样品 在 该 特征 
提高 分 类 咒 的 准确 性 。 对 特征 


另 一 种 就 是 特 和 


2.4.1 特征 选 











F 变 换 。 


先 择 


空间 中 混杂 在 一 起 ,再 好 的 设计 方法 也 无 法 
空间 进行 优化 有 两 种 基本 方法 : 一 种 是 特征 选择 ， 








寺 征 选择 指 对 原始 数据 的 特征 进行 筛选 ， 保 留 那些 对 区 分 不 同类 别 的 必要 








特征 ， 爹 去 那些 对 分 类 并 无 多 大 贡献 的 特征 ， 使 得 最 终 的 特征 





类 的 本 质 。 特 得 














空间 能 够 反映 分 








为 过 滤 式 (Filter), Wrapper ^^ 、 租 入 式 、 混 合式 几 种 类 型 。 


过 滤 式 特 生 











F 选 择 的 方法 按照 特征 选择 过 程 与 分 类 顺 之 间 的 交互 程度 可 以 分 


FE 选择 是 完全 独立 于 分 类 絮 的 ， 这 也 是 最 常见 的 一 种 特征 选择 方 








式 ， 选 择 过 程 计 算 量 小 ， 但 是 选择 的 特征 不 一 定 很 适合 分 类 。 在 Wrapper 方法 
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中 ， 特 征 子 集 的 性 能 使 用 一 个 分 类 器 在 验证 样本 上 的 正确 率 来 衡量 ， 这 样 选 择 
的 特征 比较 适合 该 分 类 器 ， 但 不 一 定 适合 其 他 的 分 类 器 。 由 于 在 特征 选择 过 
程 中 要 评价 很 多 特征 子 集 〈( 子 集 的 数量 呈 指 数 级 增长 ) ， 即 使 采用 顺序 前 向 搜 
索 ，Wrapper 方 法 的 计算 量 都 是 很 大 的 ， 只 适合 特征 维 数 不 太 高 的 情况 。 
Wrapper 方 法 的 另 一 个 问题 是 当 训练 样本 较 少 时 会 造成 过 拟 合 ， 泛 化 性 能 
变 差 。 

欣 入 式 方法 是 在 分 类 器 的 训练 过 程 中 包含 了 特征 选择 功能 ， 因 此 跟 Wrap- 
per 方 法 一 样 也 是 依赖 于 分 类 器 的 。 一 个 经 典 的 方法 是 LASSOL” ， 近 来 有 代表 
性 的 两 种 谍 入 式 方法 是 稀 玻 支持 向 量 机 "和 Boosting FETE VERE”! 。 混 合式 特 
征 选择 结合 不 同 的 方法 以 实现 更 好 的 计算 复杂 性 -分 类 性 能 的 折 中 ， 在 初始 特 
征 数量 非常 大 时 经 常 使 用 ,很 多 此 类 方法 "在 三 个 阶段 先后 用 三 种 方法 削减 
SET ER. 过滤 、 聚 类 、 组 合式 选择 。 过 滤 方 法 和 Wrapper 方法 也 经 常 结合 
使 用 。 

特征 选择 领域 大 部 分 的 研究 工作 都 集中 在 过 滤 式 方法 。 模 式 识别 领域 早期 
的 工作 多 把 关注 点 放 在 搜索 策略 上 ， 特 征 子 集 评价 准则 多 采用 基于 高 斯 密度 假 
设 的 距离 准则 ， 如 Fisher 准则 、Mahalanobis 距离 等 。 其 实 ， 特 征 子 集 的 评价 准 
则 更 为 重要 ， 当 准则 较 好 地 衡量 特征 子 集 的 可 分 性 且 比 较 稳 定时 ， 简 单 的 搜索 
策略 就 能 产生 良好 的 分 类 性 能 。 

村 征 选择 常常 面临 着 保留 哪些 描述 量 删除 哪些 描述 量 的 抉择 ， 信 息 论 在 这 
方面 为 图 像 识 别提 供 了 许多 有 用 的 方法 '“” ， 如 图 像 频率 (Image Frequency, 
IF), x? Zik (CHI), REIRE (Term Strength, TS) 、 信 息 增益 (Information 
Gain, IG) 法 和 互信 息 (Mutual Information, MI) 方法 等 。 

基于 图 像 频率 的 特征 选择 方法 简单 易 行 ， 可 以 在 降低 特征 空间 复杂 度 的 同 
时 去 掉 一 部 分 噪声 特征 ， 但 低频 特征 也 可 能 带 有 很 大 的 信息 量 ， 该 方法 直接 去 
除 低 频 特 征 会 影响 识别 效果 ; x^ 统计 量度 量 特征 和 类 别 独立 性 的 缺乏 程度 ， 优 
点 是 降 维 效果 比较 好 ， 缺 点 则 是 统计 花费 大 ; 术语 强度 的 特点 是 基于 目标 聚 类 
的 方法 ， 认 为 在 相关 目标 中 出 现 次 数 越 多 的 特征 具有 信息 量 ， 这 样 可 以 去 掉 大 
部 分 无 信息 量 或 带 有 很 少 信息 量 的 特征 。 

信息 增益 法 "是 依据 某 个 特征 项 为 整个 分 类 所 能 提供 的 信息 量 多少 来 衡量 
该 特征 项 的 重要 程度 ， 从 而 决定 对 该 特征 项 的 取舍 。 理 论 上 讲 , 信息 增益 应 该 














































































































































































































是 最 好 的 特征 选择 方法 ， 但 实际 上 由 于 许多 信息 增益 比较 高 的 特征 出 现 频率 往 
往 较 低 ， 所 以 当 使 用 信息 增益 选择 的 特征 数目 比较 少时 ， 往 往 会 存在 数据 稀 玻 
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问题 ， 此 时 识别 效果 也 比较 差 。 

互信 息 法 的 基本 原则 是 选择 类 别 相关 的 特征 ， 同 时 排除 宛 余 的 特征 。 特 征 
与 类 别 之 间 的 互信 息 很 好 地 度量 了 特征 的 相关 性 ， 特 征 与 特征 之 间 的 互信 息 则 
度量 它们 之 间 的 相似 性 〈 宛 余 性 ) 。 因 此 ， 基 于 互信 息 的 特征 选择 一 般 遵 循 这 样 
一 种 模式 : 在 顺序 前 向 搜索 中 寻找 与 类 别 互 信息 最 大 而 与 前 面 已 选 特征 互信 息 
最 小 的 特征 项 。 文 献 [83] 提出 的 条 件 互信 息 用 来 度量 在 一 个 已 选 特征 的 条 
件 下 另 一 个 新 的 候选 特征 对 分 类 的 相关 性 。 文 献 [84] 通过 分 析 一 种 相关 度 设 
计 一 种 快速 的 两 步 特征 选择 方法 。 虽 然 Yang FA 从 数学 的 角度 比较 了 信息 增 
益 法 和 互信 息 法 ， 解 释 了 实验 结果 的 一 些 现 象 , 但是， 评价 特征 选择 方法 的 标 
准 并 没有 从 理论 上 得 到 验证 。 


























































































































2.4.2 特征 变换 


特征 变换 是 通过 一 种 映射 变换 改造 原 特征 空间 ， 也 就 是 说 新 的 每 一 个 特征 
是 原 有 特征 的 一 个 函数 。 传 统 的 线性 变换 方法 主要 有 主 分 量 分 析 (Principal 
Component Analysis, PCA) 5€ 、 独 立 分 量 分 析 (Independent Component Analy- 
sis, ICA)'! 、 线 性 判别 分 析 (Linear Discriminant Analysis, LDA) t 

主 分 量 分 析 的 目的 是 寻找 在 最 小 均 方 意义 下 最 能 代表 原始 数据 的 投影 方法 ， 
它 通过 KL 变换 得 到 互 不 相关 的 新 特征 分 量 ， 而 且 可 以 根据 需要 选取 最 主要 的 那 
部 分 ， 从 而 在 降 维 的 同时 最 大 程度 地 保留 了 原始 数据 的 信息 ; 由 于 主 分 量 分 析 
假定 数据 集 满足 高 斯 分 布 ， 在 非 高 斯 分 布 的 情况 下 常 采 用 独立 分 量 分 析 ， 而 统 
计 独 立 是 比 主 分 量 分 析 所 要 求 的 不 相关 条 件 更 加 严格 的 条 件 ， 只 有 对 于 高 斯 随 
机 变量 ,这 两 个 条 件 才 相同 ”i， 相 对 前 两 种 方法 寻找 的 是 用 来 有 效 表示 的 主轴 
方向 ， 线 性 判别 分 析 方 法 寻找 的 是 用 来 有 效 分 类 的 方向 '， 该 方法 又 则 Fisher 
判别 分 析 ， 也 是 假设 所 有 样本 在 总 体 上 服从 高 斯 分 布 ， 其 目的 是 使 子 空间 中 类 
间 离 散 度 (Sb) 和 类 内 离散 度 (Sw) 的 行列 式 之 比 达到 最 大 。 另 外 ，LDA 提取 
的 特征 个 数 受到 类 别 数 的 限制 ， 而 当 训 练 样本 数 相对 特征 维 数 较 小 时 ，Sw 为 奇 
T, 会 带 来 很 多 计算 上 的 问题 。 

由 于 非 高 斯 分 布 、 小 样本 问题 的 在 在， 特征 变换 也 成 为 了 近年 来 特征 提取 
技术 的 一 个 热点 ， 这 方面 工作 主要 可 以 分 为 以 下 几 个 方向 ; 

1) 针对 小 样本 的 线性 特征 提取 方法 ; 

2) 类 内 协 方差 矩阵 不 同 的 情况 下 的 异 方差 (heteroscedastic) 判别 分 析 ; 

3) 非 高 斯 分 布下 的 特征 变换 方法 ; 
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4) 局 部 空间 特性 保持 的 特征 变换 方法 ; 

5) 非 线 性 特征 变换 方法 ; 

6) 二 维 模式 特征 变换 方法 。 

小 样本 学 习 的 一 个 典型 例子 是 图 像 分 类 ， 如 果 直 接 用 图 像 中 所 有 像素 点 的 
值 作为 特征 量 ,， 矢量 的 维 数 非常 高 ， 而 每 一 类 的 样本 数 又 很 少 。 克 服 Sw 奇异 性 
的 一 个 直接 方法 是 正则 化 (regularized〉 JD 949r ^, ， 通 过 矩阵 平滑 使 Sw 变 得 
非 奇 异 。Fisherface 方法 则 用 PCA 把 特征 维 数 从 刀 降 到 N- M (N 是 样本 数 ，M 是 
类 别 数 ) 使 Sw 变 得 非 奇 异 。 但 是 ，Sw 的 维 数 由 D 降 到 N-M 会 损失 一 些 鉴 别 信 
息 ， 而 降 到 N-1 维 则 不 会 有 损失 。 而 这 时 Sw 仍然 是 奇异 的 ， 就 需要 从 Sw WZ 
空间 (对 应 本 征 值 为 0) 提取 一 些 特征 。 与 一 般 的 LDA 方法 先 对 Sw 对 角 化 然后 
对 Sb 对 角 化 相反 ， 一 种 Direct LDA DIO A Sb 对 角 化 后 从 变换 后 的 Sw 提取 
对 应 较 小 本 征 值 的 鉴别 矢量 。 

对 于 类 别 协 方差 矩阵 不 同 的 情况 异 方差 判别 分 析 ! 呈 方法 可 以 得 到 比 LDA 更 
好 的 分 类 性 能 。 对 于 非 高 斯 分 布 或 任意 分 布 的 情况 ， 非 参数 判别 分 析 是 提取 判 
别 特 征 的 一 个 基本 思路 ， 由 此 发 展 起 来 的 方法 还 包括 基于 决策 边界 的 判别 分 析 。 
在 不 假设 参数 概率 密度 的 情况 下 ， 也 可 以 用 分 类 性 能 准则 直接 对 鉴别 投影 矢量 
进行 优化 ,这样 的 准则 如 最 小 分 类 错误 (MCE) 和 特征 与 类 别 之 间 的 互信 
息 '”。 对 于 每 类 样本 为 多 模 态 分 布 的 情况 可 以 采用 基于 混合 高 斯 密度 的 鉴别 
SEND MC 

局 部 空间 特性 不 变 的 特征 变换 方法 借鉴 了 流 形 学 习 (Manifold Learning) 的 
思想 ， 目 的 是 在 子 空间 中 保持 样本 点 之 间 的 相 邻 关系 。 流 形 学 习 的 问题 是 只 对 
训练 样本 进行 投影 ， 要 推广 到 测试 样本 就 需要 用 一 个 参数 模型 或 回归 网 络 来 表 
示 投 影 的 过 程 。He 等 人 :5 提出 的 局 部 性 保持 投影 (LPP) 方法 通过 优化 一 个 局 
部 性 保持 准则 来 估计 投影 矢量 ， 可 转换 为 矩阵 本 征 值 分 解 问题 ，LPP 是 一 种 非 监 
督学 习 方法 ， 被 推广 到 监督 学 习 和 核 空 间 ; Yan 等 人 "提出 一 种 基于 样本 邻近 
关系 分 析 的 特征 提取 的 统一 框架 ， 称 为 租 入 图 (Embedded Graph) ， 并 在 此 基础 
上 提出 一 种 新 的 判别 分 析 方 法 ; 另外 ，Isomap 流 形 学 习 方 法 ”也 被 推广 到 监督 
学 习 用 于 非 线 性 特征 变换 。 

几乎 所 有 的 线性 特征 投影 方法 都 可 以 推广 到 核 空间 。Schilkopf 55 A 7". 最 先 
将 核 函数 引入 PCA， 提 出 Kernel PCA (KPCA) 方法 ; 类 似 地 ， 将 核 函 数 引入 
Fisher 鉴别 分 析 ， 提 出 了 Kernel FDA (KFDA) 7535?! ;许多 研究 人 员 0om] 在 核 
空间 中 对 PCA 降 维 和 FDA 特征 变换 等 技术 进行 深入 分 析 ， 进 而 提出 了 许多 算 
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法 ， 比 如 Kernel LPP 和 Kernel Direct LDA 等 。 

二 维 模式 主 成 分 分 析 (2D- PCA) 05 或 判别 分 析 (2D- LDA) U! 是 近年 提出 
的 一 种 针对 图 像 模式 的 特征 变换 方法 。 这 类 方法 直接 在 图 像 和 矩阵 上 计算 协 方差 
(ABUZ) 矩阵 ， 该 矩阵 的 维 数 等 于 图 像 的 行 数 或 列 数 ， 计 算 起 来 简便 多 了 。 
另外 ， 和 矩阵 投影 到 每 个 本 征 矢量 得 到 一 个 矢量 ， 而 不 是 一 个 值 ， 这 样 得 到 的 
村 征 值 个 数 也 远 远 多 于 LDA。 在 高 维 图 像 人 脸 识 别 实验 中 ，2D-PCA 和 2D- 
LDA 的 分 类 性 能 分 别 优 于 PCA 和 LDA。 二 维 变 换 方法 实际 上 是 基于 图 像 行 或 
列 的 变换 方法 ， 即 对 每 一 行 或 每 一 列 分 别 投影 得 到 特征 ， 可 以 推广 到 基于 图 
像 块 的 投影 。 

在 设计 特征 空间 的 初期 阶段 ， 应 该 尽量 多 地 列举 出 各 种 可 能 与 分 类 有 关 的 
特征 ， 这 样 可 以 充分 利用 有 用 的 信息 。 对 此 ， ] 曾经 总 结 过 经 验 : 样品 数 V 
与 特征 数 n 之 比 应 足够 大 ,通常 样品 数 N 是 特征 数 n 的 5~10 U 。 但 高 维度 
特征 向 量 对 后 面 的 分 类 器 存在 不 利 的 影响 ， 很 容易 出 现 模式 识别 中 的 “ 维 数 灾 
难 ” 现 象 。 而 且 ， 并 不 是 所 有 的 特征 项 对 分 类 都 是 有 利 的 ， 很 多 提取 出 来 的 特 
征 可 能 是 噪声 。 因 此 ， 如 何 降低 特征 向 量 的 维 数 ， 并 尽量 减少 噪声 ， 仍 然 是 特 
征 空 间 优 化 的 两 个 关键 问题 。 

特征 选择 和 特征 变换 都 是 为 了 达到 维 数 澳 减 的 目的 ， 在 降低 分 类 器 复杂 度 
的 同时 可 以 提高 分 类 的 泛 化 性 能 。 两 者 也 经 常 结合 起 来 使 用 ， 如 先 选择 一 个 特 
征 子 集 ， 然 后 对 该 子 集 进 行 变换 。 近 年 来 为 了 适应 越 来 越 复杂 (特征 维 数 成 干 
上 万 ， 概 率 密度 偏离 高 斯 分 布 ) 的 分 类 问题 的 要 求 ， 不 断 提 出 新 的 特征 空间 优 
化 方法 ， 形 成 了 新 的 研究 热点 。 
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2.5 本 章 小 结 





本 章 首先 从 认 知 科学 的 角度 上 介绍 了 图 像 目 标 特征 提取 的 重要 性 及 其 在 目 
标识 别 系统 中 的 意义 ; 然后 给 出 了 整体 特征 和 局 部 特征 的 定义 ， 并 进行 了 简 
单 的 区 分 ; 接着 着 力 阐述 了 图 像 目 标 分 割 的 分 割 方法 和 研究 现状 ， 以 及 图 像 
分 割 和 目标 分 割 的 相互 关系 ; 最 后 对 目标 的 各 种 表示 与 描述 方法 进行 了 详细 
的 论述 和 比较 ， 并 综述 了 近 些 年 来 国内 外 学 者 在 目标 特征 空间 优化 方面 的 科 
研 进展 。 

寺 征 提取 和 表示 已 经 成 为 图 像 目 标识 别 甚 至 机 器 视 觉 领 域 中 的 关键 步 又， 
好 的 提取 和 表达 方式 能 够 极 大 地 简化 以 及 优化 后 续 的 处 理 过 程 。 不 过 ， 有 效 的 
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目标 分 割 和 信息 表示 技术 往往 也 需要 对 图 像 内 容 的 认 知 学 习 和 分 析 推 理 ， 这 就 
衍生 了 交互 式 分 割 和 交替 式 目 标识 别 的 思想 ， 也 是 一 个 新 的 发 展 方向 。 总 之 ， 
目前 还 没有 一 种 完全 自动 的 特征 提取 技术 能 适用 于 任何 具体 问题 ， 一 般 需 要 在 
特定 的 任务 中 ,其 至 特定 的 图 像 里 ,选用 一 种 或 几 种 不 同 的 方法 ， 从 而 提取 出 
合适 的 目标 特征 ， 完 成 图 像 目 标识 别 以 及 场景 理解 等 任务 。 
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你 们 在 想 要 攀登 到 科学 顶峰 之 前 ,务必 把 科学 的 初 
步 知 识 研究 透彻 。 还 没有 充分 领会 前 面 的 东西 时 ， 就 绝 
不 要 动手 摘 往 后 的 事情 。 

一 一 巴 甫 洛 夫 . 伊 几 . 彼 德 罗维奇 (1849—1936) 


3.1 引言 


生物 每 天 都 在 进行 各 种 情况 下 的 模式 识别 一 一 如 寻找 食物 、 迁 移 、 逃 避 政 
害 、 辨 认同 伴 等 ， 这 是 生物 与 生 俱 来 的 应 付 周围 环境 所 必需 的 能 力 ， 也 是 一 种 
智能 最 常见 的 体现 。 当 然 ， 它 可 能 只 是 很 简单 的 本 能 ， 如 微生物 来 到 pH 值 不 合 
适 的 环境 中 就 会 逃走 ; 也 可 能 需要 训练 和 推理 ， 如 医生 通过 望 闻 问 切 或 者 借助 
仪器 判断 病症 。 

模式 识别 研究 的 目的 是 构造 自动 处 理 某 些 信 息 的 机 器 系统 ， 以 代替 人 完成 
分 类 和 辨识 的 任务 。 它 的 研究 对 象 基 本 上 可 以 概括 为 两 类 : 一 类 是 有 直觉 形象 
的 如 图 片 、 相 片 、 图 案 、 文 字 等 ， 一 类 是 无 直觉 形象 而 只 有 数据 或 信号 波形 如 
语言 、 声 音 、 心 电 脉冲 、 地 震波 等 。 但 对 模式 识别 来 说 ， 无 论 是 数据 、 信 和 号 还 
是 平面 图 形 和 物体 ， 都 是 除 掉 它们 的 物理 内 容 找 出 它们 的 共性 ， 把 具有 同一 共 
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性 的 归 为 一 类 ， 有 另 一 种 共性 者 则 归 为 男 一 类 "| 。 

模式 即 描述 子 的 组 合 ， 例 如 在 第 2 章 2. 3 节 中 讨论 过 的 那些 符号 ， 在 许多 有 
关 模 式 识别 的 著作 中 ， 也 经 常用 特征 来 表示 一 个 描述 子 。 模 式 类 是 一 个 拥有 茶 
些 共同 性 质 的 模式 族 。 模 式 类 用 w ，w, ，…，owy 表 示 ， 这 里 WW 是 模式 类 的 数 
量 。 由 机 顺 完 成 的 模式 识别 是 对 不 同 的 模式 分 配 各 自 所 属 类 的 技术 ， 这 种 技术 
是 自动 的 并 且 尽 可 能 地 减少 人 的 介入 |。 

正如 第 1 章 1.3.2 WB, 我 们 可 以 认为 图 像 识 别 是 图 像 处 理 与 模式 识别 两 
个 学 科 的 结合 ， 也 可 以 把 图 像 识 别 看 做 专门 针对 图 像 数 据 的 模式 识别 。 在 本 章 
中 ， 我 们 称 单个 图 像 区 域 为 目标 、 对 象 或 者 模式 。 
































3.2 ”模式 识别 方法 概述 


模式 识别 方法 具有 多 样 性 ， 对 于 如 何 将 它们 进行 分 类 没有 明确 的 定义 。 我 
们 可 以 大 体 将 其 分 为 两 个 主要 类 型 : 决策 理论 和 结构 判别 。 实 践 中 的 三 种 常用 
模式 组 合 句 量 〈 用 于 定量 描述 ) 、 串 和 树 (用 于 结构 描述 )， 就 是 分 别 适用 
于 这 两 类 模式 识别 方法 的 。 

1. 决策 理论 

这 是 一 种 数学 方法 ， 它 是 受 数学 中 的 决策 理论 的 启发 而 产生 的 识别 方法 。 
它 主要 是 建立 在 被 研究 对 象 的 统计 知识 上 ， 也 就 是 对 图 像 目标 进行 大 量 的 统计 
分 析 ， 抽 出 图 像 中 本 质 的 特征 而 进行 识别 。 在 这 种 方法 中 很 大 的 精力 都 集中 在 
提取 图 像 特征 方面 ， 也 就 是 把 图 像 目 标 大 量 的 原始 信息 缩减 为 少数 特征 ， 然 后 
再 进行 特征 空间 优化 ， 将 最 终 的 模式 向 量 作为 识别 的 依据 。 

模式 向 量 一 般 用 黑体 字母 表示 ， 比 如 半 ， 了 和 2Z， 并 采取 下 列 形式 . 

Xz(x,x,:,x,).. (3-1) 

这 里 ， 每 个 分 量 ,代表 第 i 个 描述 子 ,，n 是 与 模式 有 关 的 符号 总 数 。 模 式 向 量 是 
用 列 向 量 表示 的 ， 即 n x1 阶 和 矩阵 。 模 式 疝 量 环 中 的 元 素性 质 取 决 于 描述 物体 模 
式 自身 所 采用 的 方法 。 

2. 结构 判别 

结构 性 方法 ,也 称 语言 学 方法 。 它 是 立足 于 分 析 图 像 结构 ， 把 一 幅 图 像 看 
成 语言 构造 。 例 如 一 个 英文 句子 ， 是 词 和 短语 组 成 的 并 按 一 定 的 语法 表达 出 来 ， 
其 中 最 基本 元 素 是 单词 。 与 此 类 似 ， 图像 是 由 一 些 直 线 、 斜 线 、 点 、 弯 曲线 及 
环 等 组 成 。 剖 析 这 些 基 本 元 素 ， 看 它们 是 以 什么 规则 构成 图 像 ， 这 就 是 结构 分 
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析 的 课题 。 这 些 基 本 元 素 相 当 于 句子 中 的 单词 ,那些 直线 、 曲 线 的 组 合 相 当 于 
短语 ， 它 们 全 体 如 何 构成 图 像 就 相当 于 语法 规则 。 此 时 ， 图 像 识 别 就 相当 于 检 
查 图 像 所 代表 的 某 一 类 名 型 是 否 符合 事先 规定 的 语法 ， 如 果 语 法 正确 就 识别 出 


2 











在 某 些 应 用 中 ， 模 式 的 特性 很 适 于 用 结构 关系 进行 描述 。 例 如 ， 指 纹 识 别 
基于 称 为 细节 的 指纹 特征 的 
相互 关系 。 综 合 指纹 的 相对 
大 小 和 人 位置， 这些 特征 是 描 
述 指纹 纹路 属性 的 主要 分 量 ， 
如 指纹 的 端点 、 分 文 、 合 并 
以 及 不 连续 段 。 这 类 识别 问 
题 通常 用 结构 性 方法 会 得 到 
很 好 的 解决 ， 因 为 它们 的 特 
征 不 仅 与 数量 有 关 ， 而且 各 
个 特征 间 的 空间 关系 也 决定 
着 它们 的 类 别 归 属 。 

串 的 描述 适 于 生成 目标 
模式 和 其 他 实体 模式 ， 它 们 
的 结构 是 基于 原始 元 素 的 较 
为 简单 的 连接 ， 通 常 和 边界 
形状 有 关系 。 对 许多 应 用 来 
说 ， 更 有 效 的 一 种 方法 是 树 
形 描述 结构 ， 也 就 是 一 种 主 
要 的 分 层 有 序 的 结构 。 如 图 
3-1 所 示 ， 一 张 关 于 乡村 风景 
的 照片 ， 树 的 根 节点 代表 整 图 3-1 一 幅 图 像 的 多 级 树 形 结构 描 
幅 图 像 ， 下 一 级 节点 表示 此 a) 乡村 风景 图 像 b) 树 形 描述 结构 
图 由 前 景 和 背景 构成 ， 前 景 
又 由 地 面 和 非 地 面 区 域 构成 ， 再 下 一 层 进 一 步 描 述 地 面 和 非 地 面 区 域 …… 可 以 
一 直 继 续 这 样 的 细 分 ， 直 到 到 达 在 图 像 解 析 不 同 区 域 的 能 力 极限 。 

从 上 述 两 类 方法 看 来 ， 第 1 种 方法 (决策 理论 ) 没有 利用 图 像 本 身 的 结构 
关系 ， 第 2 种 方法 (结构 判别 ) 没有 考虑 图 像 目 标 受 到 的 噪声 和 干扰。 如果 两 者 
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结合 起 来 考虑 可 能 会 有 新 的 识别 方法 ， 目 前 这 方面 的 研究 还 不 多 。 由 于 本 书后 
续 章 节 中 的 技术 方法 主要 是 针对 复杂 背景 下 的 图 像 目 标 表 示 与 识别 ， 所 以 本 章 
对 结构 性 方法 不 做 详细 介绍 ， 如 果 有 读者 比较 感 兴趣 的 话 ， 可 以 查阅 参考 文献 
[8, 54, 67, 104] 中 的 相关 内 容 。 

其 实 ， 模 式 识 别 也 可 以 分 为 模式 匹配 和 模式 分 类 两 个 方向 ， 与 此 相应 的 图 
像 目 标识 别 系统 都 由 两 个 过 程 组 成 ， 即 设计 与 实现 。 设 计 是 指 用 一 定数 量 的 样 
本 (叫做 训练 集 或 学 习 集 ) 进行 分 类 器 或 模型 库 的 设计 ; 实现 是 指 用 所 设计 的 
分 类 器 或 模型 库 对 待 识别 的 样本 进行 分 类 决策 5 。 

目标 分 类 一 般 需 要 构造 有 效 的 特征 向 量 和 充分 利用 相关 领域 的 知识 ， 而 在 
许多 实际 应 用 中 ， 很 难得 到 有 关 特 征 概率 和 类 别 概率 的 先 验 知识 ， 或 者 得 到 的 
数据 不 足以 设计 分 类 器 。 在 这 种 情况 下 ， 可 以 使 用 模型 直接 匹配 未 知 物体 ， 并 
选择 最 佳 匹配 为 最 终 分 类 结果 |。 
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利用 特征 进行 模式 匹配 是 目前 目标 匹配 识别 中 最 常用 也 最 有 效 的 方法 ， 其 
有 具体 含义 是 指 图 像 中 目标 的 特征 同 模 型 库 中 的 模型 相 匹 配 。 在 许多 图 像 目标 识 
别 任 务 中 ， 待 识别 的 目标 数量 较 多 ， 每 一 个 目标 拥有 的 特征 也 有 许多 ， 因 此 ， 
在 建立 识别 系统 的 时 候 ， 必 须 考虑 特征 的 有 效 性 和 匹配 算法 的 高 效率 。 


3.3.1 两 种 目标 匹配 方式 


可 以 这 样 定义 目标 匹配 识别 : 给 定 一 幅 包 含 一 个 或 多 个 物体 的 图 像 和 一 组 
对 应 物体 模型 的 标记 ， 系 统 应 将 标记 正确 地 分 配给 图 像 中 对 应 的 物体 或 区 域 集 
合 。 对 应 于 向 量 (定量 描述 ) 与 串 和 树 (结构 描述 ) 的 模式 组 合 形式 ， 一 般 采 
用 直接 匹配 和 符号 匹配 两 类 方式 。 

1. 直接 匹配 

假设 每 一 个 特征 类 别 是 由 它 的 特征 来 表示 的 。 即 假设 第 i 类 物体 的 第 j 个 特 
征 值 表示 为 f;。 对 于 一 个 未 知 物体 ， 其 特征 表示 为 uw。 该 物体 和 第 i 类 的 相似 性 
由 下 式 给 出 : 









































S,= Y ws; (3-2) 
式 中 ，wj 是 第 7 个 特征 的 权 值 ， 权 值 的 选择 是 以 特征 的 相对 重要 性 为 基础 的 ; 第 
j 个 特征 相似 值 是 ;， 它 可 以 是 绝对 差 、 规 范 化 差 或 其 他 距离 测量 值 。 最 常用 的 
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方法 是 用 下 式 并 考虑 同 特征 一 起 使 用 的 权 值 规范 化 ; 
5 = uj -fyl (3-3) 

如 果 5, 是 最 高 相似 度 值 ， 则 标记 物体 为 类。 在 此 方法 中 ,使 用 的 特征 可 
能 是 局 部 的 ， 也 可 能 是 全 局 的 。 注 意 此 方法 没有 使 用 特征 之 间 的 任何 联系 。 

2. 符号 匹配 

一 个 物体 不 仅 可 以 用 它 的 特征 来 表示 ， 而 且 可 以 用 特征 之 间 的 联系 来 表示 。 
特征 之 间 的 关系 可 以 是 空间 的 ， 或 者 是 其 他 形式 的 。 在 这 样 的 情况 下 ， 物 体 可 
能 被 表示 为 一 个 图 形 。 图 形 的 每 一 个 节点 都 表示 一 个 物体 ， 弧 线 连接 节点 表示 
物体 之 间 的 联系 。 因 此 ， 物 体 识 别 问题 可 以 认为 是 图 形 匹配 问题 。 

一 个 图 形 匹 配 问题 可 以 定义 如 下 : 有 两 个 图 形 GIG, BENATA, H 
中 i 表示 图 形 数 ,j 表示 节点 数 ， 节 点 7 和 节点 之 间 的 联系 表示 为 R。 在 图 形 
上 定义 一 个 相似 性 测量 值 ， 该 测量 值 包 含 了 所 有 节点 和 函数 的 相似 性 。 

在 目标 识别 的 多 数 应 用 中 ， 待 识别 的 物体 可 能 是 部 分 可 见 的 。 因 此 ， 一 个 
识别 系统 必须 能 从 物体 的 部 分 视图 来 识别 它们 。 那 些 使 用 整体 特征 和 要 求 所 有 
特征 都 存在 的 识别 方法 在 这 些 应 用 中 是 行 不 通 的 。 在 某 种 意义 上 ， 部 分 视图 识 
别 问题 和 图 形 学 中 研究 的 图 形 敬 入 问题 是 类 似 的 。 但 当 我 们 开始 考虑 节点 相似 
性 和 节点 之 间 关 系 时 ， 物 体 识 别 中 的 问题 与 图 形 学 问题 就 不 同 了 。 


3.3.2 匹配 的 相似 度 度 量 


对 目标 进行 匹配 识别 ， 需 要 选用 合适 的 相似 度 比 较 函 数 ， 这 个 函数 可 以 称 
之 为 相似 度 度 量 。 相 似 度 度量 具有 特征 依赖 性 ， 不 同 的 特征 应 该 采用 不 同 的 度 
量 方 法 获得 最 佳 的 测度 效果 。 由 于 局 部 特征 是 采用 模式 向 量 的 方式 描述 的 ， 计 
算 两 个 特征 向 量 之 间 的 距离 是 它们 相似 度 的 一 种 很 好 的 度量 。 设 d 为 距离 函数 ， 
X, Y, Z 为 局 部 特征 的 模式 向 量 ， 表 示 形 式 为 全 = (x,，x,，…，x,) 。 通 常情 
况 下 ， 距 离 度量 函数 应 该 满足 如 下 四 个 性 质 . 
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自 相 似 性 d(X, X) =d(Y, Y) =d(Z, Z) =0 (3-4) 
最 小 性 d(X, 了) 2d(X, X) z0 (3-5) 
对 称 性 d(X, Y) =d(Y, X) (3-6) 
三 角 不 等 性 d(X, Y) +d(Y, Z) =d(X, Z) (3-7) 


在 实际 应 用 中 ， 所 采用 的 相似 度 比较 函数 并 不 一 定 全 都 要 满足 上 述 的 四 条 
定理 ， 可 能 只 满足 其 中 的 一 个 或 者 几 个 。 目 前 常用 的 距离 函数 有 明 可 夫 斯 基 距 
离 、 马 氏 距 离 、 二 次 型 距离 和 EMD 距离 等 。 
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1. AA AHE (Minkowski Distance) 
DOGY) 21,00 Y) [È a-n], po (3-8) 
“palit, L,(X, Y) 称 为 海 明 距 离 (Haming Distance) : 
Lh DSS insp (3-9) 


i=l 


“ p=2 HF, LX, Y) 称 为 欧 氏 距离 (Euclidean Distance) : 


| (3-10) 
“pool, L,(X, Y) 称 为 切 比 雪夫 距离 (Chebychv Distance) : 
L,(X, Y) = max |x; - y; (3-11) 














从 向 量 范 数 的 角度 来 讲 ， 明 可 夫 斯 基 距 离 可 以 称 之 为 p — 范 数 ， 海 明 距 离 、 
欧 氏 距离 和 切 比 雪夫 距离 分 别称 为 1 - 范 数 、2 - 范 数 和 om - 范 数 '" 。 

2. BREK (Mahalanobis Distance) 

马 氏 距离 ， 即 马 哈 拉 诺 比 斯 距离 ， 是 由 印度 统计 学 家 马 哈 拉 讳 比 斯 提出 的 ， 
表示 数据 的 协 方差 距离 。 它 是 一 种 有 效 的 计算 两 个 未 知 样本 集 的 相似 度 的 方法 ， 
与 欧 氏 距离 不 同 的 是 它 考 虑 到 各 种 特性 之 间 的 联系 (例如 : 一 条 关于 身高 的 信 
息 会 带 来 一 条 关于 体重 的 信息 ， 因 为 两 者 是 有 关联 的 ) 并 且 是 尺度 无 关 的 
(Scale- invariant) ， 即 独立 于 测量 太 度 。 其 数学 表达 式 为 

D(X,Y)-/(X-Y) C (X-Y) (3-12) 
其 中 ,，C 为 特征 向 量 的 协 方差 矩阵 ，T RNA CELA YRS 2 N 
单位 矩阵 ， 马 氏 距离 就 被 简化 为 欧 氏 距离 ， 如 果 协 方差 矩阵 为 对 角 阵 ， 则 其 也 
可 称 为 正规 化 的 欧 氏 距离 。 

马 氏 距 离 有 很 多 优点 。 它 不 受 量 纲 的 影响 ， 两 点 之 间 的 马 氏 距离 与 原始 数 
据 的 测量 单位 无 关 ; 由 标准 化 数据 和 中 心 化 数据 ( 即 原始 数据 与 均值 之 差 ) 计 
算出 的 两 点 之 间 的 马 氏 距离 相同 。 马 氏 距 离 还 可 以 排除 变量 之 间 的 相关 性 的 干 
扰 。 它 的 缺点 是 夸大 了 变化 微小 的 变量 的 作用 。 

3. 二 次 型 距离 (Quadratic Distance ) 

明 可 夫 斯 基 距 离 对 所 有 的 特征 向 量 平均 对 待 ， 没 有 考虑 特征 向 量 之 间 的 关 
系 。 二 次 型 距离 与 马 氏 距离 一 样 ， 考 虑 了 各 个 特征 向 量 之 间 的 关联 性 。 其 数学 
表达 式 为 

































































D(X, Y) = /(X -Y)'A(X -Y) (3-13) 
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其 中 4=[a;] 为 一 个 对 称 和 矩阵， 表示 特征 向 量 之 间 的 相关 性 ; oj; 为 下 标 为 和 7 
的 特征 分 量 之 间 的 相似 性 。 二 次 型 距离 考虑 到 特征 分 量 之 间 的 相关 性 ， 但 是 对 
称 和 矩阵 的 计算 量 较 大 。 

4. EMD (Earth Mover's Distance) 

EMD 度量 是 Rubner 等 人 :提出 的 一 种 相似 度 度量 ， 它 把 运筹 学 的 运输 问 
题 引 入 到 图 像 识 别 中 ， 采 用 最 优化 求解 最 小 运输 成 本 的 方法 来 度量 图 像 间 的 相 
似 性 。 

在 理解 EMD 计算 原理 时 ， 可 以 把 多 个 分 布 的 其 中 之 一 视 为 地 球 表面 的 高 
山 ， 另 一 分 布 则 视 为 地 球 表面 的 低洼 部 分 ， 而 EMD 主要 的 目的 是 要 找 出 可 以 将 
低洼 部 分 填 平 的 最 小 成 本 。 对 地 距离 (Ground Distance) 是 用 于 计算 高 山 与 低洼 
部 分 的 距离 ， 也 就 是 搬移 一 个 单位 所 需 花 费 的 成 本 ， 当 EMD 的 值 愈 小 时 则 表示 
这 个 分 布 愈 相似 。 计 算 EMD 距离 的 方法 比较 复杂 ， 不 同 应 用 需 根 据 要 求 选 择 有 
效 的 对 地 距离 1 。 

EMD 距离 在 最 近 得 到 了 较 广 泛 的 关注 ， 因 为 它 能 以 一 种 非常 自然 的 方式 处 
理 部 分 匹配 的 问题 ， 对 于 处 理 图 像 领域 中 广泛 存在 的 遮挡 、 轮 廓 片段 匹配 具有 
很 大 的 用 途 ; 另外 ， 当 对 地 距离 具有 感知 意义 时 ，EMD 距离 往往 最 能 体现 视觉 
感知 上 的 相似 性 。 




































































3.4 目标 分 类 的 研究 现状 








目标 分 类 也 可 以 称 为 模式 分 类 ， 就 是 在 特征 空间 中 用 统计 方法 把 被 识别 对 
象 归 为 其 一 类 别 。 基 本 做 法 是 在 样本 训练 集 基 础 上 确定 某 个 判决 规则 ， 使 按 这 
种 判决 规则 对 被 识别 对 象 进行 分 类 所 造成 的 错误 识别 率 最 小 或 引起 的 损失 
最 小 5 。 

模式 分 类 不 同 于 经 典 的 统计 “假设 检验 ”技术 ， 后 者 根据 输入 数据 ， 判 断 
零 假设 〈 或 原 假设 、 空 假设 ) 本 与 备 择 假设 五 中 哪 一 个 成 立 。 简 单 地 说 ， 如 果 
在 零 假设 甩 成 立 的 前 提 下 获得 相应 实际 输入 数据 的 概率 小 于 某 个 “显著 性 水 
平 ”"， 则 我 们 拒绝 零 假设 也 而 接受 备 择 假设 局。 模式 分 类 也 不 同 于 严格 意义 上 
的 “图 像 处 理 ” 。 在 图 像 处理 中 ， 输 入 的 是 一 幅 图 像 ， 输 出 的 也 是 图 像 。 图 像 处 
理 的 步骤 常 包括 图 像 旋 转 、 对 比 度 增强 和 其 他 能 保持 所 有 原始 信息 的 图 像 变换 。 
而 特征 提取 ， 比 如 检 出 图 像 中 的 峰 谷 点 ， 将 要 损失 信息 。 

如 上 所 述 ， 特 征 提取 融和 输入 模式 ， 而 输出 特征 值 。 特 征 的 数目 几乎 总 是 少 






























































:62- ”图像 目标 的 表示 与 识别 


于 用 于 描述 完整 的 感 兴趣 的 目标 所 需 的 数据 量 ， 因 而 在 这 个 过 程 中 产生 信息 损 
失 。 而 “联想 存储 器 ”的 功能 是 输入 模式 ， 激 发 出 另外 一 类 模式 。 这 个 过 程 也 
损失 信息 ， 但 损失 的 分 量 远 比 不 上 模式 分 类 器 所 为 。 简 而 言 之 ， 因 为 决策 在 模 
式 判别 信息 中 至 关 重 要 的 作用 ， 所 以 它 本 质 上 就 是 一 个 信息 压缩 过 程 ， 不 可 能 
仅仅 根据 已 知 某 个 模式 的 类 别 隶 属 就 重 构 该 特定 模式 。 分 类 过 程 中 ， 信 息 量 的 
损失 更 大 ， 将 原来 图 像 中 成 千 上 万 比特 的 像素 颜色 信息 压缩 至 几 个 比特 表示 的 
类 别 信息 。 

另外 还 有 3 种 密切 相关 的 技术 一 一 回归 分 析 ， 函 数 内 搬 ， 和 (概率) 密 
度 统计 “i ， 也 经 常 要 用 到 模式 识别 系统 中 的 第 一 个 步 又， 不 管 是 显 式 的 运 
用 或 隐 含 的 运用 。 回 归 分 析 的 目的 是 对 输入 数据 找到 合适 的 函数 表示 ， 常 用 
于 预测 新 数据 的 值 ， 其 中 线性 回归 的 函数 形式 对 输入 数据 而 言 是 线性 的 ， 是 
到 目前 为 止 最 流行 也 是 研究 最 透彻 的 一 种 回归 形式 ; 在 函数 内 插 中 ， 我 们 已 
知 的 (或 者 容易 得 出 的 ) 是 一 定 范围 内 的 输入 数据 对 应 的 函数 值 ， 而 要 解 
决 的 问题 是 如 何 求 出 位 于 这 些 输 入 点 之 间 的 数据 点 的 函数 值 ， 密 度 函 数 估计 
用 于 求解 具有 某 种 特定 特征 的 类 别 成 员 (样本 ) 出 现 的 (概率 ) 密度 


问题 。 
3.4.1 分 类 器 设计 技术 


设计 分 类 絮 是 目标 分 类 的 主要 任务 和 核心 研究 内 容 之 一 。 分 类 器 设计 就 是 
在 训练 样本 集合 上 进行 优化 〈 如 使 每 一 类 样本 的 表达 误差 最 小 或 使 不 同类 别 样 
本 的 分 类 误差 最 小 ) 的 过 程 ， 也 就 是 一 个 机 天 学 习 过 程 。 下 面 将 从 不 同 的 角度 
对 图 像 目 标识 别 常用 的 分 类 器 进行 轨 类 ， 进 而 介绍 它们 的 人 研究 现状 。 

1. 按照 分 类 器 的 数目 

按照 分 类 器 的 数目 ， 可 以 分 为 单 分 类 器 方法 和 多 分 类 器 方法 。 顾 名 思 义 ， 
单 分 类 器 方法 中 ， 全 部 目标 类 别 共 用 一 个 分 类 器 ， 多 分 类 器 方法 为 每 个 类 别 设 
置 一 个 分 类 器 。 但 是 多 分 类 顺 方 法 会 带 来 一 个 很 严重 的 “ 拒 识 ”问题 。 如 果 某 
个 目标 和 全 部 目标 类 别 的 相似 度 都 小 于 相应 的 冰 值 ， 就 无 法 识别 该 目标 。 这 种 
情况 下 ， 还 得 调用 单 分 类 器 方法 ， 将 其 类 别 设置 为 相似 度 最 大 的 那个 类 别 。 所 
以 ， 为 每 个 类 别 设置 一 个 分 类 顺 的 方法 应 用 并 不 广泛 。 

还 有 一 种 思路 ， 就 是 用 多 个 弱 分 类 顺 来 联合 投票 进行 目标 识别 ， 采 用 这 种 
思路 的 多 分 类 器 方法 被 认为 是 结合 不 同 分 类 器 的 优点 、 克 服 单 个 分 类 器 性 能 不 
足 的 一 个 有 效 途 径 。 其 核心 思想 是 , 个 专家 判断 的 有 效 组 合 应 该 优 于 某 个 专家 














































































































第 3 章 基于 整体 特征 的 目标 识别 +63- 


个 人 的 判断 结果 。 投 票 算法 主要 有 两 种 : Bagging BYE”! 和 Boosting BYE” ， 
它们 都 是 通过 对 训练 样本 集 进 行 重 采 样 或 加 权 来 训练 多 分 类 央 的 。 不 过 ，Bag- 
ging 算法 是 并 行 的 ， 而 Boosting 算法 是 串 行 的 ， 它 们 在 训练 每 个 分 量 分 类 器 时 ， 
训练 样本 的 抽取 方式 也 有 所 不 同 。Boosting 方法 作为 一 种 集成 机 器 学 习 方 法 ， 通 
过 粗糙 的 、 不 太 正 确 的 、 简 单 的 、 单 赁 经 验 的 初级 预测 方法 ( 弱 分 类 器 ) ， 按 照 
一 定 的 规则 (在 自 组 织 自学 习 的 方式 下 设计 各 弱 分 类 带 的 权重 ) ， 最 终 得 出 一 个 
复杂 的 、 精 确 度 很 高 的 预测 方法 ( 提升 分 类 模型 来 解决 复杂 问题 )。 基 于 Boos- 
ting 方法 有 许多 不 同 的 变形 ， 其 中 AdaBoost 方法 "由 于 算法 简单 、 运 算 速 度 快 
而 被 广泛 应 用 于 字符 识别 和 人 脸 检测 等 领域 。 

与 其 他 学 习 方法 对 样本 集 或 特征 集 进 行 分 解 不 同 的 是 ， 纠 错 输 出 编码 ( Er- 
ror- correcting output codes, ECOC) 1 站 是 对 类 别 集 进行 分 解 ， 通 过 组 合 多 个 二 > 
分 类 器 (这 里 的 一 类 可 以 是 一 个 类 别 子 集 ) 来 实现 多 类 分 类 。 为 外 一 种 通过 二 
类 分 类 器 实现 多 类 分 类 的 方法 是 把 一 对 样本 之 间 的 关系 分 为 “同类 ” (Intra- 
class) 和 “不 同类 ”(Extra- class) 两 类 ， 输 入 特征 从 两 个 样本 提取 (如 两 个 样 
本 对 应 特征 的 差 )， 二 类 分 类 器 的 输出 给 出 两 个 样本 “同类 ”的 概率 或 相似 度 ， 
多 类 问题 采用 近邻 规则 进行 分 类 。 这 种 方法 可 以 克服 训练 样本 不 足 的 问题 ， 而 
且 在 训练 后 可 任意 增加 或 减少 类 别 而 不 必 重 新 训练 ， 近 年 来 已 广泛 用 于 人 脸 识 
别 等 生物 特征 识别 问题 。 

2. 按照 分 类 器 训练 过 程 中 的 人 工 参与 程度 

按照 分 类 器 训练 过 程 中 的 人 工 参 与 程度 ， 一 般 可 以 分 为 有 监督 (Su- 
pervied) 和 无 监督 (Unsupervied) 识别 。 它 们 从 本 质 上 的 区 别 就 在 于 训练 
数据 是 否 有 已 知 的 类 别 标签 。 无 监督 识别 主要 用 于 确定 两 个 特征 向 量 之 间 
的 “相似 度 ” 以 及 合适 的 测度 ， 并 选择 一 个 算法 方案 ， 基 于 选 定 的 相似 度 
测度 对 向 量 进行 聚 类 (分 组 )。 通 常 ,， 不同 的 算法 方案 可 能 导致 不 同 的 结 
果 ， 这 一 点 必须 由 专家 进行 解释 "i; 而 有 监督 识别 可 以 通过 学 习 有 标签 
的 数据 ， 挖 掘 已 知 信息 来 设计 分 类 顺 ， 能 够 以 较 小 的 训练 集 获 得 较 高 精度 
的 模型 。 

对 于 海量 的 图 像 数据 进行 人 工 标注 ， 浪 费 资源 且 不 切实 际 ， 近 年 来 ， 将 标 
注 数据 和 未 标注 数据 结合 起 来 用 于 目标 识别 受到 广泛 的 关注 ， 这 就 是 半 监 督 
(Semi-supervied) WIIF], Cohen 7^, Yao! 和 Lit” 等 学 者 分 别 将 半 监 督 
识别 应 用 到 了 人 有 上 脸 识别 、 航 拍 图 像 的 目标 检测 以 及 图 像 分 类 等 领域 ,取得 了 一 
些 成 果 。 
































































































































*64- 图像 目标 的 表示 与 识别 


3. 按照 分 类 器 的 数学 模型 

按照 分 类 器 的 数学 模型 ， 可 以 分 为 生成 (Generative) 方法 和 判别 ( Discrim- 
inative) 方法 。 生 成 方法 中 的 朴素 贝 叶 斯 (Naive Bayes) 412888 ^ 是 根据 目标 
属于 不 同类 别 的 概率 来 进行 分 类 的 ， 它 将 分 类 器 设计 问题 转化 为 概率 密度 估计 
问题 ， 给 出 了 最 一 般 情 况 下 适用 的 “最 优 ” 分 类 器 设计 方法 ， 该 方法 对 各 种 不 
同 的 分 类 器 设计 技术 在 理论 上 都 有 指导 意义 ; 在 判别 方法 中 将 每 个 目标 表示 为 
特征 向 量 ， 进 而 视 作 整个 特征 空间 的 一 个 点 ， 认 为 不 同 的 类 别 是 特征 空间 中 不 
同 区 域 或 子 空间 ， 因 此 如 果 能 够 找到 一 个 分 离 函 数 把 属于 不 同类 别 的 点 分 来 ， 
则 识别 任务 就 完成 了 ， 这 种 方法 不 依赖 于 条 件 概率 密度 的 知识 ， 其 中 最 具 代 表 
性 的 是 神经 网 络 (Neural Network, NNet)‘'! 和 支持 向 量 机 (Support Vector Ma- 
chine, SVM) ^, 

混合 生成 - 判别 学 习 的 识别 方法 052 近年 来 受到 了 广泛 的 关注 。 这 种 方法 
结合 了 生成 模型 和 判别 模型 的 优点 ， 一 般 先 是 对 每 一 类 模式 建立 一 个 生成 模型 
(概率 密度 模型 或 结构 模型 ) ， 然 后 用 判别 学 习 准则 对 生成 模型 的 参数 进行 优化 。 
学 习 的 准则 可 以 是 生成 模型 学 习 准 则 (如 最 大 似 然 准则 ) 和 判别 学 习 准 则 (如 
条 件 似 然 度 ) 的 加 权 组 合 汪 2 。 结 合 判别 学 习 的 贝 叶 斯 网 络 "2 也 可 以 看 做 
是 混合 -判别 学 习 模 型 。 

Jain 45 A UU 把 分 类 器 分 为 基于 相似 度 (距离 度量 ) 的 分 类 器 、 基 于 概率 密 
度 的 分 类 器 、 基 于 决策 边界 的 分 类 器 。 第 一 种 分 类 器 常用 于 目标 匹配 识别 ， 其 
性 能 取决 于 相似 度 或 距离 度量 的 设计 ， 后 两 种 分 类 器 基本 对 应 于 生成 模型 和 判 
别 模型 。 此 外 ， 强 化 学 习 近 年 来 在 模式 识别 领域 得 到 了 深入 的 研究 和 广泛 的 应 
FAURE) 。 它 在 本 质 上 是 一 种 在 线 学 习 ， 与 有 监督 学 习 的 最 明显 区 别 是 不 需要 指 
明 目 标 类 别 的 标签 ， 只 需要 外 界 对 这 次 分 类 任务 完成 情况 给 出 “对 ”或 “ 错 ” 
的 反馈 。 


3.4.2 性 能 评估 方法 


性 能 评估 是 目标 识别 系统 设计 的 一 个 重要 部 分 ， 它 将 决定 系统 是 否 满足 特 
定 应 用 的 要 求 以 及 预期 的 作用 。 如 果 没 有 达到 要 求 ， 设 计 者 应 当 根据 评估 结 
重新 考虑 和 设计 系统 。 另 外 ,在 特征 选择 阶段 ， 错 误 分 类 概率 也 可 以 作为 性 能 
指标 来 选择 特定 分 类 需 的 最 佳 特 征 。 

假设 一 个 目标 识别 系统 输出 的 各 种 结果 统计 情况 见 表 3-1。 

基于 此 表 ， 可 以 得 到 系统 的 查 准 率 (Precision) 、 查 全 率 (Recall) 、 正 确 率 


















































































































































第 3 章 ， 基 于 整体 特征 的 目标 识别 -65- 
(Accuracy) 、 错 误 率 (Error) 和 -测度 值 的 计算 公式 ， 即 
表 3-1 目标 识别 系统 输出 结果 




































































目标 与 类 别 的 实际 关系 三 
WT 不 属于 
系统 对 两 者 关系 的 判断 
标记 为 YES TP FP 
标记 为 NO FN TN 
2 TP 
查 准 率 Precision = TP +FP (3-14) 
MAS = TP 一 
查 全 率 Recall = pur (3-15) 
xx . = TP +TN i 
正确 率 Oo 
FP+FN i 
错误 率 Enor = Tp 1 TN + FP + FN prag 
2 aol 
F- 测度 什 F, = (B^ +1) x Precision x Recall (3-18) 





B x Precision + Recall 

上 面 公式 中 ， 正 确 率 和 错误 率 不 是 很 常用 ， 因 为 计算 公式 的 分 母 太 大 ， 导 致 其 
对 识别 正确 的 目标 (TP) 数目 变化 不 是 很 敏感 。F- 测度 值 中 的 B 是 调整 查 准 率 
和 查 全 率 在 评价 函数 中 所 占 比重 的 参数 ， 通 常 采 用 B=1 的 FE. 

对 于 目标 识别 系统 来 说 ， 查 准 率 和 查 全 率 是 一 对 相互 矛盾 的 物理 量 。 提 高 
查 准 率 往往 要 牺牲 一 定 的 查 全 率 ， 反 之 亦 然 。 为 更 全 面 地 反映 分 类 系统 的 性 能 ， 
一 种 做 法 是 选取 查 准 率 和 查 全 率 相等 时 的 值 来 表示 系统 的 性 能 ， 该 值 叫做 平衡 
点 (Break-even Point, BEP) 值 。 在 找 不 到 查 准 率 和 查 全 率 相等 的 时 候 ， 可 以 
取 最 接近 的 查 准 率 和 查 全 率 的 平均 值 作为 BEP fH. 

对 于 分 类 的 总 体 性 能 评估 ， 有 安平 均 (Maro-averaging) 和 微 平均 ( Micro- 
averaging) 两 种 评估 方式 。 宏 平均 是 先 计算 每 个 类 别 的 指标 ， 再 计算 每 个 类 别 指 
标的 平均 值 ， 微 平均 计算 所 有 个 体 样本 指标 的 平均 值 。 显 然 ， 宏 平均 把 类 别 作 
为 最 小 的 评价 单位 ; 微 平 均 把 个 体 样 本 作为 最 小 评价 单位 。 当 样本 在 所 有 类 别 
中 分 布 均匀 时 ， 安 平均 等 于 微 平 均 ; 当 每 个 类 别 的 个 体 样本 数目 悬殊 时 ， 宏 平 
均 会 和 微 平均 有 较 大 的 差别 。 

近年 来 ， 信 和 号 检测 领域 中 的 ROC (Receiver Operating Characteristics) 曲线 被 
引入 到 对 分 类 识别 的 效果 评估 和 优化 中 2 。 曲 线 图 的 了 轴 和 碟 轴 分 别 是 评价 
指标 TPR (True Positive Rate) #11 FPR (False Positive rate), HF, TPR 和 FPR 


























.66 .图像 目标 的 表示 与 识别 
的 计算 公式 如 下 : 





TP FP 
~ TP +FN’ FPR = Fp 4 TN 


随 着 阔 值 参数 的 调整 ，ROC 空间 中 的 曲线 不 但 能 直观 反映 识别 系统 的 性 能 ， 
曲线 下 的 面积 AUC (Area Under Curve) 更 可 以 量化 分 类 器 接受 正 例 的 倾向 性 。 
另外 ，ROC 空间 对 样本 在 类 别 间 的 分 布 不 敏感 ， 可 以 反映 错误 代价 (Error Cost) 
等 指标 的 变化 ， 具 有 特别 的 优势 。 基 于 该 曲线 图 的 相等 错误 率 (Equal Error 
Rate, EER) 即 为 TPR =1 - FPR, 

在 目标 检测 领域 中 ,将 背景 噪声 正确 地 排除 在 目标 类 别 之 外 的 数目 (TN) 
相对 于 正确 检测 出 目标 区 域 的 数目 (TP) 来 说 过 于 庞大 ， 而 且 它 的 计算 对 于 检 
测 系统 的 评估 意义 不 大 。 目 标 检 测 系统 更 加 关注 于 是 否 将 目标 全 部 检测 出 来 以 
及 检测 出 的 区 域 有 多 少 是 虚 警 (7?| ， 这 就 引出 了 RPC 曲线 图 (Recall Precision 
Curves) ， 其 了 轴 和 总 轴 分 别 对 应 评价 指标 查 全 率 和 虚 警 率 (1-Precision) 。 有 效 
地 将 RPC 曲线 用 于 目标 检测 系统 的 评价 、 比 较 以 及 优化 ， 成 为 近期 的 一 个 研究 
FA i [126,127] : 


TPR (3-19) 








3.5 典型 的 图 像 目 标 分 类 器 














肾 类 、 朴 素 贝 叶 斯 分 类 右 、 神 经 网 络 、 支 持 向 量 机 等 ， 均 是 图 像 目标 分 类 
器 的 典型 ， 将 在 本 节 做 以 详细 介绍 ， 并 在 后 面 章节 中 进行 应 用 。 分 类 顺 模 型 和 
学 习 方 法 多 种 多 样 ， 性 能 各 有 特点 ， 一 般 来 说 ，SVM 和 Boosting 在 大 部 分 情况 
下 分 类 性 能 优异 ,但 也 有 他 们 自身 的 不 足 一 一 SVM 的 核 函 数 选择 和 Boosting 的 
弱 分 类 器 选择 对 性 能 影响 很 大 ， 分 类 的 计算 复杂 度 较 高 (如 SVM 的 支持 向 量 个 
数 往往 很 大 ) 。 


3.5.1 基于 聚 类 分 析 的 分 类 器 


作为 统计 学 的 一 个 分 文 ， 聚 类 就 是 将 数据 对 象 分 组 成 为 多 个 类 或 复 ( Clus- 
ter) ， 在 同一 个 复 中 的 对 象 之 间 具 有 较 高 的 相似 度 ， 而 不 同 复 中 的 对 象 差 别 较 
大 。 相 异 度 是 根据 描述 对 象 的 属性 值 来 计算 的 ， 距离 是 最 常 采 用 的 度量 方式 
( 见 本 书 3.3.2 节 )。 

如 图 3-2 所 示 ， 在 机 器 学 习 领 域 中 ， 聚 类 是 典型 的 无 监督 学 习 ( Unsuper- 
vised Learning) ， 不 依赖 预先 定义 的 类 别 和 带 类 标号 的 训练 实例 ， 也 可 以 称 之 为 
观察 式 学 习 。 基 于 聚 类 分 析 的 分 类 与 后 面 儿 节 所 述 的 有 上 监督 学 习 分 类 的 不 同 之 
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处 在 于 ， 它 要 划分 的 类 是 未 知 的 ， 也 就 是 说 事先 并 不 知晓 要 把 目标 分 为 哪 几 个 
具体 的 类 别 。 

















图 3-2 SRE R/V (Small World Network) 中 的 应 用 





聚 类 算法 的 选择 取决 于 数据 的 类 型 、 聚 类 的 目的 和 应 用 ， 可 以 对 同样 的 数 
尝试 多 种 算法 ， 以 发 现 数据 可 能 揭示 的 结果 。 主 要 的 聚 类 算法 大 体 上 可 以 划 
分 为 如 下 几 类 : 

1. 划分 的 方法 (Partitioning Method) 

给 定 一 个 包含 n 个 目标 对 象 的 数据 集 ， 一 个 划分 方法 构建 对 象 数据 的 上 个 划 
分 ， 每 个 划分 表示 一 个 类 ， 并 且 和 <n。 也 就 是 说 ， 它 将 样本 划分 为 个 组 ， 同 
时 满足 如 下 的 要 求 : 每 个 组 至 少 包含 一 个 对 象 ; 每 个 对 象 必须 属于 日 只 属于 一 
个 组 。 注 意 在 某 些 模糊 划分 技术 中 第 二 个 要 求 可 以 放宽 。 给 定 ， 即 要 构建 的 划 
分 的 数目 ， 划 分 方法 首先 创建 一 个 初始 划分 。 然 后 采用 一 种 近 代 的 重 定位 技术 ， 
尝试 通过 对 象 在 划分 间 移 动 来 改进 划分 。 一 个 好 的 划分 的 一 般 准则 是 ， 在 同一 
个 类 中 的 对 象 之 间 的 距离 尽 可 能 小 ， 而 不 同类 中 的 对 象 之 间 的 距离 尽 可 能 
还 有 许多 其 他 划分 质量 的 评判 准则 。 

为 了 达到 全 局 最 优 ， 基 于 划分 的 聚 类 会 要 求 穷 举 所 有 可 能 的 划分 。 实 际 上 ， 
绝 大 多 数 应 用 采用 了 以 下 两 个 比较 流行 的 启发 式 方法 : -平均 值 (k-means) 算 
法 ， 在 该 算法 中 ， 每 个 簇 用 该 簇 中 对 象 的 平均 值 来 表示 ; -中 心 点 (k-medoids) 
算法 ， 在 该 算法 中 ， 每 个 簇 用 接近 聚 类 中 心 的 一 个 对 象 来 表示 。 这 些 启发 式 聚 
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类 方法 对 在 中 小 规模 的 数据 集中 发 现 球 状 簇 很 适用 。 为 了 对 大 规模 的 数据 集 进 
行 聚 类 ， 以 及 处 理 复 杂 形 状 的 聚 类 ， 基 于 划分 的 方法 需要 进一步 的 扩展 。 

2. 层次 的 方法 (Hierarchical Method ) 

层次 的 方法 对 给 定数 据 集 进行 层次 的 分 解 。 根 据 层次 的 分 解 如 何 形成 ， 层 
次 的 方法 可 以 被 分 为 凝聚 的 和 分 裂 的 方法 。 凝 聚 的 方法 ,也 称 为 自 底 向 上 的 方 
法 ， 一 开始 将 每 个 对 象 作为 单独 的 一 个 组 ， 然 后 继续 地 合并 相近 的 对 象 或 组 ， 
直到 所 有 的 组 合并 为 一 个 〈 层 次 的 最 上 层 ) ， 或 者 达到 一 个 终止 条 件 。 分 裂 的 方 
法 ,也 称 为 自 顶 向 下 的 方法 ,一 开始 将 所 有 的 对 象 置 于 一 个 簇 中 。 在 迭代 的 每 
一 步 中 ， 一 个 复 被 分 裂 为 更 小 的 复 ， 直 到 最 终 每 个 对 象 在 单独 的 一 个 徐 中 ， 或 
者 达到 一 个 终止 条 件 。 

层次 的 方法 的 缺陷 在 于 ， 一 旦 一 个 步骤 (合并 或 分 裂 ) 完成 ， 它 就 不 能 被 
撤销 。 这 个 严格 规定 是 有 用 的 ， 所 示 不 用 担心 组 合 数目 的 不 同 选择 ， 计 算 代 价 
会 较 小 。 但 是 ， 该 技术 的 一 个 主要 问题 是 它 不 能 更 正 错误 的 决定 。 有 两 种 方法 
可 以 改进 层次 聚 类 的 结果 : 一 种 是 在 每 层 划分 中 ， 仔 细 分 析 对 象 间 的 连接 ， 例 
如 CURE 和 Chameleon 中 的 做 法 ; 另 一 种 是 综合 层次 凝聚 和 迭代 的 重 定 位 方法 ， 
首先 用 自 底 向 上 的 层次 算法 ,然后 用 达 代 的 重 定位 来 改进 结果 ,例如 在 BIRCH 
中 的 方法 5 。 

3. 基于 密度 的 方法 (Density- based Method) 

绝 大 多 数 划分 方法 基于 对 象 之 间 的 距离 进行 聚 类 。 这 样 的 方法 只 能 发 现 球 
状 的 簇 ， 而 在 发 现任 意 形状 的 徐 上 遇 到 了 困难 。 随 之 提出 了 基于 密度 的 另 一 类 
聚 类 方法 ， 其 主要 思想 是 : 只 要 临近 区 域 的 密度 ( 对象 或 数据 点 的 数目 ) 超过 
某 个 浆 值 ， 就 继续 聚 类 。 也 就 是 说 ， 对 给 定 类 中 的 每 个 数据 点 ， 在 一 个 给 定 范 
围 的 区 域 中 必须 包含 至 少 某 个 数目 的 点 。 这 样 的 方法 可 以 用 来 过 滤 “ 噪 声 ” 数 
据 ， 发 现任 意 形状 的 簇 。DBSCAN 是 一 个 有 代表 性 的 基于 密度 的 方法 ， 它 根据 
一 个 密度 阔 值 来 控制 复 的 增长 。OPTICS 是 另 一 个 基于 密度 的 方法 ， 它 为 自动 的 
和 交互 的 聚 类 分 析 计 算 一 个 聚 类 顺序 2” 。 

4. 基于 网 格 的 方法 (Grid- based Method) 

基于 网 格 的 方法 把 对 象 空间 量化 为 有 限 数目 的 单元 ， 形 成 了 一 个 网 格 结构 。 
所 有 的 聚 类 操作 都 在 这 个 网 格 结构 〈 即 量化 的 空间 ) 上 进行 。 这 种 方法 的 主要 
优点 是 它 的 处 理 速度 很 快 ， 其 处 理 时 间 独 立 于 数据 对 象 的 数目 ， 只 与 量化 空间 
中 每 一 维 的 单元 数目 有 关 。STING 是 基于 网 格 方法 的 一 个 典型 例子 ， 而 CLIQUE 
和 WaveCluster 这 两 种 算法 既是 基于 网 格 的 ， 又 是 基于 密度 的 :2 。 
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5. 基于 模型 的 方法 (Model-based Method) 

基于 模型 的 方法 为 每 个 艇 假定 了 一 个 模型 ， 寻找 数据 对 给 定 模型 的 最 佳 匹 
配 。 一 个 基于 模型 的 算法 可 能 通过 构建 反映 数据 点 空间 分 布 的 密度 函数 来 定位 
聚 类 。 它 也 基于 标准 的 统计 数字 自动 决定 聚 类 的 数目 ， 考 虑 “噪声 ”数据 和 孤 
立 点 ， 从 而 产生 健壮 的 聚 类 方法 。 

COBWEB 是 一 个 常用 的 且 简 单 的 增 量 式 概 念 聚 类 方法 ， 它 的 输入 对 象 是 采 
用 符号 量 (属性 - 值 ) 对 来 加 以 描述 的 ， 采 用 分 类 树 的 形式 来 创建 一 个 层次 聚 
类 ; CLASSIT 是 COBWEB 的 另 一 个 版 本 ， 可 以 对 连续 取 值 属性 进行 增 量 式 聚 类 ， 
它 为 每 个 节点 中 的 每 个 属性 保存 相应 的 连续 正 态 分 布 (均值 与 方差 ); 并 利用 一 
个 改进 的 分 类 能 力 描述 方法 ， 即 不 像 COBWEB 那样 计算 离散 属性 〈 取 值 ) 和 而 
是 对 连续 属性 求 积分 。 

一 些 聚 类 算法 集成 了 多 种 聚 类 方法 的 思想 ， 所 以 有 时 将 某 个 给 定 的 算法 划 
分 为 属于 某 类 聚 类 方法 是 很 困难 的 。 此 外 ， 某 些 应 用 可 能 有 特定 的 聚 类 标准 ， 
要 求 综 合 多 个 聚 类 技术 。 

传统 的 聚 类 方法 已 经 比较 成 功 地 解决 了 低 维 数据 的 聚 类 问题 ， 但 在 高 维 数 
据 集中 进行 聚 类 时 ， 却 遇 到 了 两 个 难以 解决 的 问题 : 一 是 高 维 数据 集中 存在 大 
量 无 关 的 属性 使 得 在 所 有 维 中 存在 篮 的 可 能 性 几乎 为 零 ; 二 是 高 维 空间 中 数据 
较 低 维 空间 中 数据 分 布 要 稀 玻 ， 其 中 数据 间距 离 几 乎 相等 是 普遍 现象 ， 而 传统 
聚 类 方法 是 基于 距离 进行 聚 类 的 ， 但 在 高 维 空间 中 无 法 基于 距离 来 构建 簇 。 

高 维 数据 聚 类 分 析 是 聚 类 分 析 中 一 个 非常 活跃 的 领域 , 同时 也 是 一 个 具有 
挑战 性 的 工作 。 信 息 技术 的 进步 使 得 数据 收集 变 得 越 来 越 容易 ， 导 致 数据 库 规 
模 越 来 越 大 、 复 杂 性 越 来 越 高 ， 如 各 种 类 型 的 贸易 交易 数据 、Web 文档 、 基 因 
表达 数据 等 ， 它 们 的 维度 (属性 ) 通常 可 以 达到 成 千 上 万 维 ， 甚 至 更 高 。 目 前 ， 
高 维 数据 聚 类 分 析 在 市 场 分 析 、 信 息 安 全 、 人 金融、 娱乐 、 反 泡 等 方面 都 有 很 广 
泛 的 应 用 。 在 图 像 目 标识 别 方面 ， 随 着 图 像 内 容 越 来 越 丰富 以 及 特征 描述 子 的 
维度 不 断 增 加 ， 进 行 高 维 数据 聚 类 分 析 已 经 提 上 日 程 。 

3.5.2 基于 朴素 贝 叶 斯 的 分 类 器 

朴素 贝 叶 斯 分 类 器 进行 目标 分 类 的 基本 思想 是 利用 特征 项 (特征 分 量 ) 和 
类 别 的 联合 概率 来 估计 给 定 目标 的 类 别 概率 。 该 模型 假定 特征 向 量 的 各 个 分 量 
间 对 于 决策 变量 时 相对 独立 的 ， 即 目标 是 基于 特征 项 的 一 元 模型 ， 当 前 项 的 出 
现 依赖 于 目标 类 别 但 不 依赖 于 其 他 特征 项 。 
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训练 集中 的 每 个 样本 可 以 用 一 个 n 维特 征 向 量 V= (5, 6, n, t, CE 
示 ， 其 中 ，C, 是 类 别 标记 ，1 <i<m， t, 是 特征 项 ，1 <k<n。 进 行 分 类 时 ,目标 
了 被 标记 为 C,， 当 且 仅 当 

P(CAT) >P( GIT) ,1 &j&m,izj (3-20) 

根据 概率 理论 的 贝 叶 斯 公式 可 知 P(AI 2B) = [PCA)P(CBI A)VP(B), 应 
用 此 表达 式 ，P(C, 1 T) 的 计算 可 以 表达 为 
P(C,)P(TIC,) 

P(T) 
HP, P(C) 为 C; 类 目标 的 出 现 概率 ， 其 计算 比较 简单 。 在 n 分 类 中 ， 如 果 训 
练 集 里 各 个 类 别 的 样本 数目 相同 ， 则 PCC.) 可 以 取 1/n。P(TI C,) 和 P(7T) 的 
具体 实现 ， 通 常 又 分 为 两 种 模型 。 

1. 多 元 伯 努 利 模型 (Multi- variate Bernouli Model) 

目标 了 采用 DF HERRA”, MERE V 的 每 个 分 量 都 是 一 个 布尔 
值 ，0 表示 相应 的 特征 项 在 该 目标 中 未 出 现 ，! 表示 特征 项 在 目标 中 出 现 。 在 这 
种 方法 中 























P(CAT) = (3-21) 

















P(TIC,) = ITPG,IC;) (3-22) 
P(T) = 之 (PCC) MPC, 1C,)] (3-23) 


因此 
P(C;) IPC 1C,) 
PCGID = ST PCC) TTP,C.] (3-24) 

其 中 ，P(i, | C;) 是 对 C, 类 目标 中 特征 4 出 现 的 条 件 概率 的 拉 普 拉 斯 估计 : 
1+N(t,,C;) 
M+N(C;) 
HP, NG,, CUIAB HAA BME i 且 属 于 C, 类 的 样本 数 ，N(C,) 为 训练 
集中 C; 类 样本 的 数目 ，M 表示 类 别 的 数量 。 

2. 多 项 式 模型 (Multinomial Model) 

若 目标 了 采用 TF 向 量 表示 法 5 ， 即 模式 向 量 V 的 分 量 为 相应 特征 项 在 该 
目标 中 出 现 的 频 度 。 则 目标 7 属于 C, 类 的 概率 为 

P(C,) IL PG C;)* 09D 

x [Pl C) IE PG, C)" ] 
其 中 ，7TF(t,，7) 是 目标 7 中 特征 出 现 的 频 度 ，P(t, 1 C) 是 对 在 C, 类 目标 中 




















P(ilC,) = (3-25) 








P(C,IT) = 





(3-26) 
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特征 4 出 现 的 条 件 概率 的 拉 普 拉 斯 估计 

1 +TF(t,,C,) 
|V| + EFC) 
RM, TFC, CE C, 类 目标 中 特征 n 出 现 的 频 度 ，|V | 为 特征 分 量 的 总 数 ， 
即 目 标 表示 中 所 包含 的 不 同 视觉 单词 的 总 数目 。 

朴素 贝 叶 斯 模型 所 需 佑 计 的 参数 很 少 ， 对 缺失 数据 不 太 敏感 ， 算 法 也 比较 
简单 。 它 可 以 在 线性 时 间 内 学 习 完 所 有 的 训练 集 ， 并 渐 近 地 更 新 其 参数 ， 数 
据 到 达 的 顺序 和 分 类 错误 均 不 影响 分 类 器 的 学 习 过 程 。 理 论 上 ， 朴 素 贝 叶 其 
分 类 器 与 其 他 分 类 方法 相 比 具有 最 小 的 误差 率 。 但 是 该 模型 在 分 类 识别 中 候 
设 特征 项 之 间 相互 独立 ， 而 这 个 假设 在 实际 应 用 中 往往 是 不 成 立 的 ， 这 给 相 
素 贝 叶 斯 分 类 器 的 正确 分 类 带 来 了 一 定 影响 。 因 此 ， 近 年 来 大 量 的 研究 工作 
致力 于 改进 朴素 贝 叶 斯 分 类 器 ， 主 要 集中 在 选择 特征 子 集 和 放松 独立 性 假设 
在 两 个 方面 。 


3.5.3 基于 了 BP 神 经 网 络 的 分 类 器 


人 工 神 经 网 络 是 在 对 人 脑 神经 网 络 的 基本 认识 的 基础 上 ， 用 数理 方法 从 信 
息 处 理 的 角度 对 人 脑 神经 网 络 进行 抽象 ， 建 立 的 某 种 简化 模型 E, 
传播 网 络 (Error Back Propagation Neural Network) 是 迄今 为 止 应 用 最 广泛 的 一 种 
神经 网 络 ， 它 是 使 用 BP 算法 进行 学 习 的 多 级 非 循环 网 络 。BP 算法 在 于 利用 输 
出 层 的 误差 来 估计 输出 层 的 直接 前 导 层 的 误差 ,再 用 这 个 误差 估计 更 前 一 层 的 
误差 ， 这 样 就 形成 了 将 输出 端 表 现 出 的 误差 沿 着 与 输入 信和 号 相反 的 方向 逐 级 向 
网 络 的 输入 端 传递 的 过 程 。BP 算法 结束 了 多 层 网 络 没有 训练 算法 的 历史 ， 并 被 
认为 是 多 级 网 络 系统 的 训练 方法 ， 它 有 很 强 的 数学 基础 ， 故 其 连接 权 的 修改 是 
令 人 信服 的 。 

1. 三 层 BP 网 络 设计 

BP 网 络 的 结构 设计 主要 是 解决 设 几 个 隐 售 层 和 每 层 设 几 个 节点 的 问题 。 对 
于 这 类 问题 ， 不 存在 通用 性 的 理论 指导 ,但 神经 网 络 的 设计 者 们 通过 大 量 的 实 
践 已 经 积累 了 不 少 经 验 。 因 为 已 有 结果 表明 一 层 隐 会 层 已 经 足够 近似 任何 连续 
函数 ， 故 图 像 目标 识别 系统 常常 采用 三 层 BP 神经 网 络 。 第 一 层 输入 层 PE (处 
理 单 元 ) 的 数量 通常 由 应 用 来 决定 ， 它 可 以 等 于 特征 向 量 的 维 数 ; 第 二 层 隐 含 
层 的 PE 数量 则 是 设计 时 需要 选择 的 ， 由 于 不 知道 确定 神经 网 络 内 部 层次 中 间 节 
点 数目 的 规则 ， 因 此 这 个 数目 一 般 基 于 以 前 的 经 验 或 任意 指定 并 通过 检验 来 



































P(t,\C,) = (3-27) 














































































































图 像 目标 的 表示 与 识别 








3E 
ri 


al 


o 


如 图 3-3 所 示 ， 








寺 征 向 量 的 维 数 N 即 为 BP 网 络 的 输入 层 节 点 数 ， 中 间 隐 含 


层 的 神经 元 数目 确定 为 (N+N,)/2 (输入 和 输出 层 神 经 元 的 平均 数 )。 通 常 为 了 


减少 过 度 训 练 的 危险 ,需要 将 这 个 数量 尽量 减少 ， 
所 以 网 络 收敛 后 ,一 般 可 以 减少 PE 的 数 
量 再 进行 训练 会 得 到 更 好 的 效果 。 输 出 层 的 节点 数 与 模式 类 的 数目 一 致 ， 从 上 





敛 到 一 个 对 复杂 特征 





空间 恰当 的 划分 ， 














但 是 太 少 又 会 使 网 络 无 法 收 


到 下 的 N. 个 节点 代表 各 个 类 别 w (1 =1，2,，3,，4) 。 在 设 定 网 络 结构 后 ， 我 们 
对 整个 网 络 使 用 同样 形式 的 “5S” 激 活 函 数 ， 权 值 被 初始 化 为 带 有 和 零 均 值 的 小 随 
机 数 ， 然 后 使 用 模型 投影 图 的 相应 模式 向 量 对 网 络 进行 训练 。 输 出 节点 在 训练 








期 间 是 受到 监控 的 。 对 类 w, 的 所 有 训练 模式 ， 





与 所 求 类 一 致 的 输出 节点 必须 为 


高 (三 0.95)， 而 同时 ， 所 有 其 他 节点 必须 为 低 (0. 05 ) 。 






































X = 类 别 1 
PK XU YQ 

LEY OAD AVA = 

X; ESA AWS - 类 别 3 
BY ih 





类 别 4 


图 3-3 用 于 目标 分 类 的 三 层 BP 网 络 


2. 训练 方法 的 改进 





BP 网 络 接受 样本 的 顺序 会 对 训练 的 结果 有 较 大 的 影响 。 比 较 而 言 ， 
“偏爱 ” 较 后 出 现 的 样本 :如果 每 次 都 按照 (xi, y0. Gu. 2), cns 





它 更 
(x,,y,) 所 


给 定 的 顺序 进行 训练 (s 为 样本 数目 ，z; 为 输入 向 量 , y; 为 输出 向 量 ，i = 


1, 2, 





…，s) ， 在 网 络 学 习 完 成 投入 运行 后 ， 对 于 与 该 样本 序列 较 后 的 样本 较 











接近 的 和 输入， 网络 所 给 出 的 输出 的 精度 将 明显 











近 的 输入 对 应 的 输出 的 精度 。 


高 于 与 样本 序列 较 前 的 样本 较 接 
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实际 上 ， 按 照 这 种 方法 进行 训练 ， 有 时 甚至 会 引起 训练 过 程 的 严重 抖动 ， 
更 严重 的 ， 它 可 能 使 网 络 难 以 达到 用 户 要 求 的 训练 精度 。 这 是 因为 排 在 较 前 的 
样本 对 网 络 的 部 分 影响 被 排 在 较 后 的 样本 的 影响 掩盖 掉 了 ， 从 而 使 排 在 较 后 的 
样本 对 最 终结 果 的 影响 就 要 比 排 在 较 前 的 样本 的 影响 大 。 这 表明 ,虽然 知识 的 
分 布 表 示 原 理 告诉 我 们 ， 信 息 的 局 部 破坏 不 会 对 原 信 息 产 生 致命 的 影响 ， 但 是 
这 个 被 允许 的 破坏 是 非常 有 限 的 。 此 外 ， 算 法 在 根据 后 来 的 样本 修改 网 络 的 
连接 矩阵 时 ， 进 行 的 是 全 面 修改 ， 这 使 得 “信息 的 破坏 ”也 变 得 不 再 是 局 部 
的 。 这 正 是 BP 网 络 在 遇 到 新 内 容 时 ， 必 须 重 新 对 整个 样本 集 进 行 学 习 的 主要 
原因 。 

因此 ， 在 训练 网 络 的 时 候 ， 本 书 采 用 随机 抽取 的 方法 选取 样本 。 在 一 轮训 
练 过 程 中 ,每 次 都 从 s 个 样本 中 随机 选取 一 个 样本 进行 训练 ， 直 到 所 有 s 个 样本 
全 部 都 被 选取 过 。 系 统 进行 训练 之 后 ,使 用 在 训练 阶段 中 设 定 的 参量 对 模式 进 
行 分 类 。 在 标准 操作 中 ， 所 有 反馈 路 径 是 不 连通 的 。 任 何 输入 模式 允许 通过 不 
同 层 进行 传播 ， 并 且 模 式 被 划 归 为 高 的 节点 输出 所 属 的 类 。 此 时 ， 其 他 所 有 节 
点 输出 为 低 。 如 果 被 标记 为 高 的 节点 不 止 一 个 , 或 没有 节点 输出 被 标记 为 高 ， 
则 可 选 的 做 法 是 ， 声 明 进 行 了 错误 的 分 类 或 简单 地 将 模式 划 归 输出 节点 的 类 并 
赋予 最 大 值 。 


3.5.4 基于 支持 向 量 机 的 分 类 器 


支持 向 量 机 是 Vapnik 及 其 合作 者 "根据 结构 风险 最 小 化 原则 提出 的 一 种 
在 高 维特 征 空间 使 用 线性 函数 假设 空间 的 学 习 系 统 。 支 持 向 量 机 是 机 器 学 习 领 
域 若干 标准 技术 的 集大成 者 。 它 集成 了 最 大 间隔 超 平面 、Mercer 核 、 凸 二 次 规 
划 、 稀 玻 解 和 松弛 变量 等 多 项 技术 。 在 若干 挑战 性 的 应 用 中 ， 获 得 了 目前 为 目 
最 好 的 性 能 。 

1. 线性 分 类 

两 类 模式 〈 正 类 和 负 类 ) 的 识别 通常 用 一 个 实数 函数 f: X CR"R(Cn 为 输 
入 维 数 ，R 为 实数 )。 通 过 执行 如 下 操作 4 f(x)m 0 Br, 将 输入 x = 
(xi, X, cns x! 标记 为 正 类 ， 否则 ， 将 其 标记 为 负 类 。 当 f(x)(xeX) 是 线性 
函数 时 ，/(x) 可 以 写成 如 下 形式 : 
















































































f(x) =(wex) +b= > wx, +b (3-28) 
KH, (w, b)eR' xR, HHH RRB RL, ARN PRA sen (f(x)) 给 出 ， 
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通常 sgn(0) =1， 学 习 意 味 着 要 从 数据 中 获得 这 些 参数 ;“. ”是 向 量 点 积 。 

该 类 方法 的 几何 解释 是 ， 方 程式 (w .x〉+b=0 定义 的 超 平面 将 输入 空间 
分 成 两 个 部 分 。 如 图 3-4 所 示 ， 黑 斜 线 表 示 超 平面 ，w 是 超 平面 的 法 线 方向 。 当 
b 值 变 化 时 ， 超 平面 平行 于 自身 移动 。 因 此 ， 如 果 表 达 R" 中 所 有 可 能 的 超 平 面 ， 
一 般 要 包括 n+1 个 可 调 参 数 的 表达 式 。 

如 果 训 练 数据 可 以 无 误差 地 被 划分 ， 那么 ， 以 最 大 间隔 分 开 数 据 的 超 平面 
称 为 最 优 超 平面 ， 如 图 3-5 所 示 。 



































H:w-x+b=0 
最 优 超 平面 
magin 
Ek Hyiw-xtb--1 
图 3-4 二 维 训练 集 的 分 开 超 平面 (w, b) 图 3-5 最 优 超 平面 


对 于 多 个 模式 类 的 分 类 问题 ,输出 域 是 Y= {1，2，…，m}。 线 性 学 习 器 推 
广 到 m(meN，m 宇 2 ) 类 是 很 直接 的 : 给 每 个 类 关联 一 个 超 平面 ， 然 后 ， 将 待 分 
类 的 数据 点 赋予 超 平面 离 其 最 远 的 那 一 个 类 。 输 入 空间 分 为 m 个 简单 相连 的 凸 
区 域 。 

2. 线性 不 可 分 

对 于 非 线性 问题 ， 可 以 把 样本 x 映射 到 某 个 高 维特 征 空间 ， 在 高 维特 征 空 
间 中 使 用 线性 学 习 器 。 因 此 ， 考 虑 的 假设 集 是 这 种 类 型 的 函数 

f(x) = 2, we (x) +b (3-29) 
RP, p: XOF 是 从 输入 空间 到 某 个 特征 空间 的 映射 ， 如 图 3-6 所 示 。 也 就 是 
说 ， 建 立 非 线性 分 类 器 需要 分 两 步 : 首先 使 用 一 个 非 线 性 映射 函数 将 数据 变换 
到 一 个 特征 空间 F， 然 后 在 这 个 特征 空间 上 使 用 线性 分 类 器 。 

线性 分 类 器 的 一 个 重要 性 质 是 可 以 表示 成 对 偶 形 式 ， 这 意味 着 假设 可 以 表 
达 为 训练 点 的 线性 组 合 ， 因 此 ， 决 策 规则 (分 类 函数 ) 可 以 用 测试 点 和 训练 点 
的 内 积 表示 : 






























































f(x)* 2, ay. (6G) (x)) +6 (3-30) 
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IUP, 是 样本 数目 ; %w 是 个 正 值 导数 ， 可 通过 学 习 获 得 ; ”为 类 别 标记 。 如 果 
ee 中 (x)) ， 就 像 在 原始 输入 点 
的 函数 中 一 样 ， 那 么 ， 就 有 可 能 将 两 个 步 又 融合 到 一 起 建立 一 个 非 线性 分 类 器 。 
在 高 维 空间 内 实际 上 只 需要 进行 内 积 运算 ， 而 这 种 内 积 运 算是 可 以 利用 
空间 中 的 函数 实现 的 ， 我们 甚至 没有 必要 知道 变换 的 形式 。 这 种 直接 计算 的 
E (Kernel) 函数 方法 。 






































图 3-6 简化 分 类 任务 的 特征 映射 


3. 构造 核 函 数 
定义 3-1 核 是 一 个 函数 K， 对 于 所 有 %*，z seX， 满 足 
K(x, z) 266(x) + b(z)) (3-31) 
KE p EM X ARE CARR) 空间 下 的 映射 。 
一 旦 有 了 核 函 数 ， 决 策 规则 就 可 以 通过 对 核 函 数 的 1 次 计算 得 到 


f(x) = > Qay K(x,,x) +b (3-32) 
那么 ， 这 种 方法 的 关键 就 是 如 何 找到 一 一 个 可 以 高 效 计算 的 核 函数 。 
核 函 数 要 适合 某 个 特征 空间 必须 是 对 称 的 ， 即 
K(x, z) 2 (6(x) + $(z)) =(b(z) + 6(4)) =K(z,%) (3-33) 
并 且 ， 满 足下 面 的 不 等 式 ; 
K(x, zy =(6(x) + 6G) S|lo(@) |P lo) |? 

OE TA E =K(x, x)K(z, z) (3-34) 
an | | 是 欧 氏 模 函 数 。 但 是 ， 这 些 条 件 对 于 保证 特征 空间 的 存在 时 不 充分 
的 ， 还 必须 满足 Mercer 定理 的 条 件 ， 对 的 任意 有 限 子 集 ， 相 应 的 矩阵 式 半 正 
定 的 。 也 就 是 说 , S X RARAS, K(x, z) 是 XX 上 的 对 称 函 数 。 那 么 ， 
K(x，z) 是 核 函 数 的 充分 必要 条 件 是 矩阵 
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K= (GCG 5%) ) 5 (3-35) 
是 半 正 定 的 〈 即 特征 值 非 负 ) 。 
根据 泛 函 的 有 关 理论 ， 只 要 一 种 核 函 数 满足 Mercer 条 件 ， 它 就 对 应 某 一 空 
间 中 的 内 积 。 目 前 SVM 常用 的 核 函 数 有 

















线性 核 : K(x,z) 2 (x * z) (3-36) 
多 项 式 核 : K(x, z)=(<x- z) te)", 其 中 c=0, deN; 当 c=0 时 ， 称 为 
齐 次 多 项 式 核 ， 当 c >0 时 ， 称 为 非 齐 次 多 项 式 核 。 (3-37) 
高 斯 〈( 径 向 基 ) B. K(x,z) =exp( - [x -zx2o2),c>0 (3-38) 
Sigmoid f: K(x,z) =tanh(v(« +z) +c) (3-39) 


3.6 本章 小 结 


概括 来 说 ， 识 别 过 程 就 是 通过 找 出 描述 并 区 分 数据 类 或 概念 的 模型 (ak DR 
数 ) ， 以 便 能 够 使 用 模型 预测 那些 未 知 标记 的 对 象 类 。 正 如 很 多 科研 人 员 的 共 
WR, 图像 目标 识别 作为 机 带 智 能 的 重要 方面 ， 仍 处 于 实践 发 展 的 初级 阶段 ， 面 
对 计算 机 科学 中 图 像 工程 和 机 器 视觉 里 的 许多 关键 问题 ， 需 要 借鉴 认 知 科学 领 
域 中 人 工 智能 和 模式 识别 的 许多 经 典 方法 。 

本 童 首先 从 决策 理论 和 结构 判别 两 个 方面 简 述 了 模式 识别 的 主要 技术 和 对 
应 的 模式 形式 ; 然后 探讨 了 目标 匹配 的 基本 方法 和 模式 匹配 的 相似 度 度量 问题 ， 
即 模式 向 量 的 距离 问题 ， 接着 对 目标 分 类 融 的 研究 现状 进行 了 综述 ， 主 要 围绕 
着 分 类 器 的 种 类 及 其 性 能 评估 方法 ; 最 后 ， 详 细 介绍 和 比较 了 几 种 典型 的 图 像 
目标 分 类 器 的 原理 与 特点 。 正 如 第 2 章 所 述 ， 目 标识 别 和 目标 分 割 是 紧密 相关 
的 ， 实际 应 用 中 也 常常 需要 数据 驱动 和 理论 驱动 相 结 合 ， 在 整个 认 知 过 程 中 分 
割 和 识别 交替 进行 ， 这 也 是 图 像 工程 和 机 器 视 觉 领域 的 一 个 发 展 趋势 。 
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科学 中 像 制造 业 一 样 ， 更 换 工具 是 一 种 浪费 ， 只 有 

在 不 得 已 时 才 会 这 么 做 。 危 机 的 意义 就 在 于 ， 它 指出 更 
换 工 具 的 时 代 已 经 到 来 了 。 

一 一 托马斯 . PER. (1922—1996) 


4.1 引言 


传统 的 特征 提取 方法 大 都 将 目标 作为 一 个 整体 ， 从 大 量 包含 目标 的 图 片 集 
中 学 习 并 提取 整体 特征 ， 如 面积 、 周 长 、 不 变 矩 和 侍 里 叶 描 绘 子 等 ， 并 采用 统 
计 分 类 技术 进行 目标 分 类 。 这 种 识别 方法 有 以 下 几 个 缺点 : 对 于 结构 复杂 的 图 
像 ， 识 别 效 有 果 受 到 图 像 分 割 精度 的 制约 ; 需要 学 习 大 量 的 数据 以 及 较 长 的 训练 
时 间 ; 由 于 没有 捕捉 到 图 像 中 物体 的 局 部 信息 ， 当 目标 的 形状 发 生 较 大 变化 时 ， 
比如 目标 被 局 部 遮挡 ， 就 会 导致 整体 特征 的 突然 变化 ， 对 于 目标 识别 是 非常 不 
AJN, 

大 量 研究 表明 ， 人 类 视觉 系统 可 以 将 物体 分 解 为 许多 有 意义 的 小 块 ， 并 通 
过 这 些 局 部 的 信息 进行 目标 的 辨识 。 这 使 得 采用 局 部 特征 技术 在 复杂 背景 下 
的 目标 识别 上 有 着 越 来 越 广 泛 的 应 用 。 局 部 特征 目前 还 没有 一 个 统一 的 定义 ， 
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它 的 提出 主要 是 相对 整体 特征 而 言 ， 用 局 部 特征 对 图 像 进 行 描述 时 可 以 得 到 图 
像 中 物体 的 局 部 信息 。 在 图 像 内 容 复杂 、 噪 声 干 扰 较 大 、 存 在 局 部 咱 挡 、 目 标 
姿态 发 生 较 大 变化 等 情况 下 ， 利 用 局 部 信息 进行 目标 识别 是 非常 有 效 的 。 

局 部 特征 提取 一 般 包括 特征 区 域 检测 和 特征 区 域 描述 两 部 分 内 容 ， 从 广义 
上 讲 ， 还 包含 对 特征 空间 的 进一步 优化 。 与 分 类 器 设计 相 比 ， 局 部 特征 提取 更 
加 依赖 于 具体 问题 和 相应 领域 的 知识 。 而 且 从 实用 的 角度 来 说 ， 大 多 数 局 部 特 
征 都 要 求 对 亮度 、 尺 度 、 平 移 和 旋转 具有 一 定 的 不 变性 。 

近 几 年 来 ， 对 局 部 特征 的 研究 非常 活跃 ， 新 的 方法 不 断 涌现 。 本 章 在 对 国 
内 外 众多 研究 成 果 深入 探讨 之 后 ， 根 据 后 续 实 验 的 需要 ， 选 用 并 改进 了 一 些 特 
征 区 域 检测 算法 和 特征 区 域 描述 算 子 ， 为 不 同情 况 下 的 目标 识别 提供 了 合适 的 
局 部 特征 。 






























































4.2 SEK BS Fo iE BERTA 


4.2.1 特征 区 域 检测 的 研究 现状 


目前 ， 常 用 的 特征 区 域 检测 方法 可 以 分 为 三 类 ， 分 别 是 密集 选取 、 稀 朴 选 
取 和 其 他 选取 方法 。 从 本 质 上 看 ， 所 有 的 这 些 方法 都 是 建立 在 对 图 像 像素 遍历 
的 基础 之 上 的 。 

l. 密集 选取 方法 

这 种 方法 的 研究 者 普遍 持 有 这 样 一 种 观点 : 在 模式 识别 的 低层 处 理 中 ， 所 
有 图 像 区 域 都 有 一 定 的 作用 ， 丢 失 任 何 细节 都 可 能 对 最 终 效果 产生 很 大 的 影响 。 
Ohba 和 Ikeuchi 7 ^" 提出 将 图 像 密 集 地 分 为 互 不 重奏 的 特征 窗 ( Eigen. Win- 
dows) ， 每 个 特征 窗 都 当 作 一 个 局 部 特征 区 域 ，Jurie'”*| 以 整 幅 图 像 的 每 一 个 像素 
点 为 中 心 ， 选 取 周 围 的 区 域 作 为 局 部 特征 区 域 ，Dalal'” 和 Zhut' 采 用 在 检测 
窗口 的 每 个 像素 位 置 、 不 同 尺度 下 提取 大 量 的 特征 区 域 ， 以 供 进一步 应 用 。 

密集 选取 方法 在 滑动 窗口 模型 中 应 用 较 多 ， 其 优点 就 是 基本 没有 丢失 图 像 
的 细节 ， 可 以 得 到 非常 丰富 的 局 部 特征 。 但 是 其 中 很 大 一 部 分 特征 区 域 信息 量 
过 小 ， 对 后 期 的 识别 没有 作用 甚至 起 到 干扰 作用 ， 加 重 了 下 一 步 特 征 优化 工作 
的 负担 。 

2. 稀疏 选取 方法 

这 种 方法 都 是 通过 特征 检测 ， 选 取 具 有 显著 特点 的 图 像 区 域 作为 局 部 特征 。 
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检测 算 子 一 般 可 以 分 为 基于 形状 (Shape- based) 的 检测 算 子 和 基于 外 观 ( Ap- 
pearance-based) 的 检测 算 子 两 类 。 

基于 形状 的 检测 算 子 是 根据 图 像 的 形状 特征 〈 如 边界 、 直 线 、 弧 线 等 ) 来 
确定 特征 区 域 的 位 置 。 主 要 应 用 于 外 形 区 分 度 明显 的 目标 识别 ， 如 各 种 刚性 的 、 
无 关节 的 物体 。Gool2 利用 图 像 的 边缘 信息 对 图 像 进行 分 析 和 理解 ， 构 造 了 线 
AE RUE, ， 作 为 一 种 局 部 信息 量 ， 它 受到 平移 、 旋 转 和 尺度 变化 的 影响 较 小 ;Be- 
围绕 着 梯度 算 子 检测 出 的 边缘 点 ， 提 出 了 SC (Shape Context) 特征 ， 
描述 子 的 维度 为 36; Berg' 21 结合 边缘 方向 能 量 与 高 斯 核 函 数 ， 得 到 了 一 种 204 
维 的 局 部 特征 ， 命 名 为 GB (Geometie Blur); Fergus!'°! 用 Canny 算法 检测 图 像 
的 边缘 ， 选 择 边 缘 点 周围 的 区 域 作 为 特征 区 域 。 

基于 外 观 的 检测 算 子 是 在 图 像 的 灰 度 模式 下 ， 搜 寻 具 有 某 种 稳定 性 和 不 变 
性 的 特征 点 或 关键 区 域 。Beaudett 通过 对 图 像 函 数 二 阶 导 数 的 泰勒 展开 ， 得 到 
了 具有 旋转 不 变性 的 Hessian 矩阵 ， 可 以 直接 对 灰 度 图 像 进行 操作 提取 特征 点 ; 
Harris 等 人 :1 受到 了 信和 号 处 理 中 自 相 关 函 数 的 启发 ， 提 出 了 Harris 算法 ， 也 称 
为 Plessey 算法 ,这 种 算法 是 通过 自 相 关 和 矩阵 来 检测 特征 点 的 ;随后 ，Mikolaje- 
zyk 和 Schmid 等 人 结合 拉 普 拉 斯 和 高 斯 变换 对 Hessian 和 Harris 算法 进行 了 改进 ， 
提出 了 Harris- Laplace’! , Hessian- Laplace’! , Harris affine |, Hessian af- 
fine DU APRS; Lowe "5 提出 的 高 斯 差分 (Difference of Gaussian, DoG) 
算 子 是 在 尺度 空间 寻找 极 值 点 ， 结 果 比 较 稳 定 ， 抗 噪 能 力 较 强 ; Kadir AT 
提出 的 SalReg (Salient Regions) 算 子 ， 利 用 亮度 直方 图 在 尺度 空间 计算 局 部 最 大 
Wi, KEI MORJE KREA RIEK, Matas 等 人 "结合 分 水 岭 算法 和 
阅 值 思想 提出 了 MSER (Maximally Stable Extremal Regions) 算法 ,检测 出 的 灰 度 
值 居 中 的 稳定 区 域 。 

稀 玖 选取 法 检测 出 的 特征 区 域 数 量 一 般 在 200 ~3000， 其 主要 优点 是 简洁 、 
紧 致 ， 图 像 的 关键 点 远 少 于 图 像 的 像素 ,使 得 后 面 的 识别 过 程 能 大 大 加 速 。 但 
很 多 特征 区 域 检测 算法 往往 和 图 像 的 特性 相关 ， 应 用 到 通用 目标 识别 时 ， 可 能 
会 有 一 定 的 局 限 。 

3. 其 他 选取 方法 

Nowak! 1 在 研究 向 量 空间 模型 的 取样 策略 时 发 现 ， 当 训练 集 的 样本 足够 多 
时 ， 随 机 取样 法 能 达到 和 某 些 稀 焉 取样 相近 甚至 更 好 的 结果 。Moosmann 等 研究 
者 “提出 了 使 用 显著 性 映射 在 分 类 过 程 中 动态 选取 图 像 块 的 方法 。 

三 类 特征 区 域 检 测 方 法 都 是 建立 在 扫描 、 分 析 整 幅 输 入 图 像 的 基础 之 上 的 ， 



























































longie! ** 
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不 同 的 是 : 密集 选取 方法 在 滑动 窗口 模型 中 应 用 较 多 ， 其 优点 就 是 基本 没有 丢 
失 图 像 的 细节 ， 可 以 得 到 非常 丰富 的 局 部 特征 ,但 是 其 中 很 大 一 部 分 特征 区 域 
信息 量 过 小 ， 对 后 期 的 识别 没有 作用 甚至 起 到 干扰 作用 ; 随机 选取 等 方法 需要 
的 训练 集 样本 数量 较 大 ， 这 本 身 就 加 重 了 后 面 分 类 识别 的 负担 ; 稀 玖 选取 目前 
被 广泛 应 用 于 各 种 目标 识别 系统 ， 而 且 可 供 选 用 的 算 子 不 断 涌现 ,但 每 个 算 子 
的 效果 往往 和 目标 以 及 背景 的 特性 有 很 大 的 关联 ， 所 以 如 何 选择 合适 的 检测 算 
子 是 进行 目标 识别 的 关键 。 


4.2.2 高 斯 差分 检测 算 子 





























近 几 年 ， 高 斯 差分 (Difference of Gaussian, DoG), SalReg (Salient Re- 
gions) 、MSER ( Maximally Stable Extremal Regions) 算法 的 相继 出 现 ， 代 表 着 基 
于 外 观 的 检测 算 子 开始 广泛 应 用 于 机 器 视觉 领域 。 高 斯 差分 算 子 是 在 多 尺度 空 
间 中 寻找 稳定 有 效 的 特征 区 域 。Koendetink 和 Lindeberg 等 人 W501531 证 明了 高 斯 卷 
积 核 是 实现 尺度 变换 的 唯一 线性 核 ， 所 以 ,一 幅 二 维 图 像 1(x，y) 的 尺度 空间 定 
SH 



































L(x,y,m)-2 G(x,y,m) * I(x,y) (4-1) 
式 中 ,符号 *# 表示 卷 积 ，(x,，y) 代 表 图 像 中 像素 的 位 置 ， 而 尺度 可 变 高 斯 函 
BOY 














Btw d= 1 a C2 492/202 (4-2) 
2710 


利用 不 同 尺度 的 高 斯 差分 算 子 与 图 像 进行 卷 积 运算 ， 可 以 求 取 尺度 空间 极 

值 ， 计 算 公 式 如 下 : 
D(x, y, c) 2 [G(x, y, ko) -G(x, y, a)] *I(x, y) 
-L(x, y, ko) - L(x, y, o) (4-3) 

其 中 , 工 代表 了 图 像 的 尺度 空间 , he, RA = V2, BET 
差分 函数 的 原因 主要 有 两 个 : 一 是 其 计算 效率 较 高 ;二 是 它 可 以 作为 太 度 归 一 
化 的 高 斯 拉 普 拉 斯 函数 (Laplacian of Gaussian, LoG) 一 一 go? V^ G 的 一 种 近 
1477, WPL 4-1 所 示 。 
通过 与 其 他 特征 提取 算 子 (如 Harris, Hessian 算 子 ) 的 实验 比较 ，Mikola- 
jezyk 等 人 中 发 现 基于 oa?V?G 的 极 大 值 和 极 小 值 能 够 产生 更 为 稳定 的 局 部 特征 。 
D(x, y, o)5 P VG 的 关系 可 以 从 如 下 公式 推导 得 到 : 


He le (4-4) 
óc 



















































































第 4 章 图 像 目 标的 局 部 特征 提取 +81- 








— 高 斯 拉 普 拉 斯 函数 
二 二 高 斯 差分 函数 











-5 -4 -3 -2 -I 0 1 2 3 4 5 


图 4-1 高 斯 拉 普 拉 斯 函数 与 高 斯 差分 函数 


利用 差分 近似 蔡 代 微分 ， 则 有 


o Vic 226. G(x,y,ka ) - G(x,y,o) (4-5) 


ko -0o 





因此 ， 有 
G(x,y,ko) -G(«,y,0)=(k-1)o° V?G (4-6) 
其 中 -1 是 个 常数 ， 并 不 影响 极 值 点 位 置 的 求 取 。 
如 图 4-2 所 示 ，Lowe 等 人 中 提出 了 一 种 构造 ee y, c) 的 有 效 方法 。 
左 侧 是 不 同 尺 度 空 间 中 的 图 像 金字 塔 ， 右 侧 显示 了 将 每 层 金字 塔 中 相 邻 图 像 相 
减 所 生成 的 高 斯 差分 图 像 的 结 
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高 斯 图 像 高 斯 差分 图 像 
图 4-2 高 斯 金字 塔 和 高 斯 差分 金字 塔 的 构造 示意 图 

















图 4-2 只 给 出 了 第 一 层 和 第 二 层 高 斯 差分 图 像 的 计算 。 在 实际 
应 用 中 ， 高 斯 金字 塔 一 般 选 择 4 层 ， 每 层 有 5 幅 一 组 的 尺度 图 像 。 在 目前 常用 的 
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设计 方案 中 ， 第 一 层 的 第 一 幅 图 像 是 放大 2 们 的 原始 图 像 ， 其 目的 是 为 了 得 到 
更 多 的 特征 点 。 

图 4-3 是 利用 一 幅 关 于 爱 因 斯 坦 的 图 像 构造 高 斯 金字 塔 和 高 斯 差分 金字 塔 
的 示例 。 图 4-3b 所 示 的 高 斯 差分 图 像 是 通过 图 4-3a 金字 塔 中 对 应 层 上 的 相 邻 图 
像 相 减 而 得 到 的 。 























图 4-3 两 种 图 像 金字 塔 的 示例 

















a) 高 斯 金字 塔 b) 高 斯 差分 金字 塔 





图 4-4 所 示 为 如 何 从 高 斯 差分 金字 塔 的 分 层 结构 中 提取 出 图 像 的 极 值 点 作 
为 候选 的 特征 点 ， 就 是 将 每 个 检测 点 与 其 相 邻 点 〈 图 像 域 和 斥 度 域 ) 进行 逐个 
比较 ， 得 到 的 局 部 极 值 位 置 即 为 该 特征 点 所 处 的 位 置 和 对 应 的 尺度 。 如 图 4-2 
中 右 图 的 五 角 星 符号 所 标识 ， 由 于 需要 与 相 邻 尺度 的 点 进行 比较 ， 所 以 在 每 层 
高 斯 差分 金字 塔 的 一 组 图 像 中 只 能 检测 到 两 个 尺度 的 极 值 点 。 

由 于 DoG 算 子 对 噪声 和 边缘 较为 敏感 ， 因 此 ， 在 上 面 DoG 尺度 空间 中 检测 
到 的 局 部 极 值 点 还 需要 经 过 进一步 的 检验 才能 精确 定位 为 特征 点 。 通 过 拟 合 三 
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维 二 次 函数 可 以 较 精确 地 计算 特征 点 的 位 置 和 | EEE 
尺度 ， 同 时 还 可 以 去 除 对 比 度 较 低 的 特征 点 以 ALLELES 
e Medis Ys ns [146] [LZ ZL L LLI 
及 稳定 性 较 差 的 边缘 响应 点 1 。 poll 
获取 特征 点 处 的 拟 合 函数 为 ku 
0D7 ， Vc D 二 一 
E 
求 导 并 让 方程 等 于 零 ， 可 以 得 到 极 值 点 : AEL 
人 D'aD 
X=- = 4-8 
ax? ax (4-8) — mia 尺 庆 空间 的 极 人 检测 
对 应 极 值 点 ， 方 程 的 值 为 (KE: Lowe, 2004) 
^ 1 àD'^ 





WEE | D(X) | <0. 03, ， 则 视 为 对 比 度 较 低 的 候选 特征 点 ， 并 予以 剔除 。 
因为 DoG 算 子 会 产生 较 强 的 边缘 响应 ， 所 以 需要 对 这 些 不 稳定 的 点 进行 检 
测 。 首 先 获取 该 点 处 的 Hessian 和 矩阵: 


D. D, 
H= | | | (4-10) 
D. D, 


五 的 特征 值 a 和 代表 x 和 yy 方向 的 梯度 
Tr(H) =D, +D,,=a+B 
Det (H) = D,D, - (D,) zog (4-11) 
Tr (H YU Det (Ht RAN FEE H GEG TSK, feit o 是 最 大 的 特征 值 ，B 是 较 
小 的 特征 值 , a = 7B, W 


六 GD (a+B)?_ (B+B? (rt 
De(H) oa p? B r p 


xX (4-12) 的 值 越 大 也 就 是 两 个 特征 值 之 比 越 大 ， 这 就 说 明 在 某 一 个 方向 
上 的 梯度 值 越 大 ， 同 时 另 一 个 方向 上 的 梯度 值 越 小 ， 这 种 情况 恰恰 符合 边缘 响 
应 的 条 件 。 一 般 取 ~>=10， 并 检测 是 否 符合 以 下 条 件 ， 就 可 以 剔除 边缘 响应 点 : 


Tr (HY (r+1) 
DaS r cele) 














4.2.3 边缘 点 检测 算 子 


基于 形状 的 检测 算 子 一 般 都 是 将 边缘 点 作为 特征 点 ， 从 而 进行 特征 描述 的 。 
Canny P 提出 了 评价 边缘 检测 算法 性 能 优良 的 三 个 指标 : 
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1) 高 的 信 噪 比 ; 

2) 精确 的 定位 性 能 ; 

3) 对 单一 边缘 响应 是 唯一 的 。 

Canny 算 子 首次 将 上 述 判 据 用 数学 的 形式 表达 出 来 ， 然 后 采用 最 优化 数值 方 
法 ， 得 到 对 应 给 定 边 缘 模型 的 最 佳 边 缘 检 测 模板 。 对 于 二 维 图 像 ， 需 要 使 用 知 
干 方向 的 模板 分 别 对 图 像 进行 卷 积 处 理 ， 再 取 最 可 能 的 边缘 方向 。Canny 的 分 析 
是 针对 一 维 边缘 中 的 阶 跃 型 边缘 ，Canny 推导 出 的 最 优 边缘 检测 器 的 形状 与 高 斯 
函数 的 一 阶 导数 类 似 ， 利 用 二 维 高 斯 吨 数 的 对 称 性 和 可 分 解 性 ， 可 以 很 容易 计 
算 高 斯 函数 在 任意 方 辐 上 的 方向 导数 与 图 像 的 卷 积 。 因 此 ， 在 实际 运用 中 可 以 
选取 高 斯 洱 数 的 一 阶 导数 作为 阶 牙 边缘 的 次 最 优 检验 算 子 。 

设 图 像 f(x，y)， 二 维 高 斯 函数 如 式 (2-2) 所 示 ， 由 卷 积 求 导 性 质 可 知 ， 
G*f(x*，Y) 的 梯度 为 

































































V[G*f(x,y)] 2 VG*f(x,y) (4-14) 
梯度 的 模 值 ， 即 Gx* f(x，y) 的 最 大 方向 导数 为 
vtero = (Er) « (2887) ] (4-15) 
以 其 作为 边界 强度 。 
梯度 的 单位 方向 矢量 
no ETIN cosa, sina) - 
PT Vea c | Rae icd 
xm 
UE ae 
sma TVG fl TVG ef] (4-17) 


n 3X o 给 出 了 边界 的 法 线 方向 。 

以 上 为 Canny 二 维 最 优 阶 跃 边缘 检测 算 子 的 数学 推导 。 在 实际 应 用 中 ， 可 
以 将 原始 模板 截断 到 有 限 尺寸 N， 为 了 提高 运算 速度 ， 可 以 将 VG 的 二 维 卷 积 模 
板 分 解 为 两 个 一 维 卷 积 模板 。 

根据 Canny 边缘 的 提取 原则 。 当 一 个 像素 满足 以 下 三 个 条 件 时 ， 则 被 认为 
是 图 像 的 边缘 点 : 

1) 该 点 的 边缘 强度 大 于 沿 该 点 梯度 方向 (这 里 指正 反 向 ) 上 的 两 个 相 邻 像 
素 点 的 边缘 强度 一 一 主要 作用 是 准确 定位 并 控制 边缘 宽度 为 一 个 像素 点 。 

2) 与 该 点 梯度 方向 上 相 邻 两 点 的 梯度 方向 之 差 小 于 45° 一 一 给 出 光滑 性 约 
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束 ， 克 服 随 机 因素 的 影响 。 
3) 以 该 点 为 中 心 的 3 x3 邻 域 中 的 边缘 强度 极 大 值 小 于 某 个 阅 值 一 一 保持 
边缘 强度 相对 一 致 ， 去 除 噪声 产生 的 伪 边 缘 。 


4.3 局 部 特征 的 定量 描述 


4.3.1 特征 区 域 描 述 的 研究 现状 


在 图 像 中 检测 出 不 同 的 特征 区 域 之 后 ,需要 使 用 一 种 更 适合 于 计算 机 进 一 
步 处 理 的 形式 ， 对 得 到 的 区 域 像素 集 进行 表示 和 描述 。 基 本 上 ， 表 示 一 个 区 域 
包括 两 种 选择 : 用 其 外 部 特性 来 表示 区 域 (如 区 域 的 边界 ) ; 用 其 内 部 特性 来 表 
示 区 域 (如 组 成 区 域 的 像素 ) 5 。 显 然 ， 一 般 局 部 特征 区 域 的 外 部 特性 不 具有 区 
分 性 ， 只 能 通过 其 内 部 特性 来 表示 。 

常用 的 局 部 特征 描述 子 都 是 基于 选 定 的 表示 方式 ， 将 特征 区 域 描述 为 向 量 
的 形式 ， 又 称 特 征 向 量 。 这 些 特征 描述 子 一 方面 要 充分 体现 出 不 同 目标 的 差异 ， 
又 要 易于 计算 局 部 特征 之 间 的 相似 度 ， 还 要 对 背景 噪声 和 目标 姿态 的 变化 具有 
和 鲁 棱 性 。Mikolajczyk'“ 将 局 部 特征 描述 子 从 技术 应 用 角度 分 为 四 大 类 : 基于 分 
布 的 描述 子 、 基 于 空间 频率 技术 的 描述 子 、 差 分 描述 子 和 其 他 描述 子 。 

1. 基于 分 布 的 描述 子 

这 类 描述 子 主要 利用 直方 图 来 描述 不 同 的 外 观 或 形状 特征 。 一 种 最 简单 的 
描述 子 就 是 用 灰 度 直方 图 来 描述 区 域 中 像素 点 的 强度 分 布 ; 在 亮度 变化 的 情况 
下 ， 使 用 区 域 灰 度 级 直方 图 的 统计 和 矩 ! 效 果 更 好 ， 但 它 的 应 用 局 限于 对 纹理 图 
像 的 描述 ; SI (Spin Image)' 通过 对 围绕 着 区 域 中 心 点 的 5 个 环 分 别 统计 灰 度 
值 ， 使 得 描述 子 对 亮度 变化 、 旋 转变 化 不 敏感 ，Lowe ”提出 的 SIFT (Scale In- 
variant Feature Transform) 描述 子 是 通过 DoG 检测 子 和 梯度 方向 直方 图 获得 每 个 
关键 点 的 位 置 、 尺 度 和 方向 信息 ， 并 利用 坐标 轴 旋 转 、 多 种 子 点 联合 描述 、 向 
量 长 度 归 一 化 等 技术 消除 了 旋转 、 光 照 和 尺度 变化 等 因素 的 影响 ， 该 描述 子 适 
用 范围 广 、 运 算 速 度 快 、 鲁 棒 性 强 ; CH (Geometric Histogram) |'*! 和 SC!) 38 yk 
子 的 主要 思想 与 SIFT 描述 子 类 似 ， 只 是 它们 描述 的 是 区 域内 边缘 的 分 布 ， 主 要 
应 用 于 边缘 特征 比较 明显 、 稳 定 的 图 像 ，PCA-SIFTL5 f GLOH (Gradient Loca- 
tion Orientation Histograms )'“ 描述 子 都 是 对 SIFT 描述 子 的 扩展 ， 它 们 在 区 域 和 
梯度 方向 上 采用 了 不 同 的 描述 精度 ， 并 用 主 分 量 分 析 对 特征 向 量 进行 降 维 处 理 ， 
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进一步 增强 了 描述 子 的 鲁 棒 性 和 区 分 度 。 

2. 基于 空间 频率 技术 的 描述 子 

这 类 方法 的 优势 在 于 ， 通 过 用 频 域 技术 对 图 像 进行 描述 和 处 理 ， 可 以 充分 
利用 频率 成 分 和 图 像 外 观 之 间 的 对 应 关系 。 但 最 初 的 傅 里 叶 变 换 是 将 图 像 信 号 
转化 为 无 限 域 的 基 函 数 ， 而 且 像 素 点 之 间 的 空间 关系 是 不 明确 的 ， 这 极 不 适用 
于 局 部 特征 。Gabor 滤波 器 和 小 波 变 换 则 克服 了 上 述 缺 陷 ， 被 广泛 应 用 于 纹理 图 
像 的 分 类 和 识别 中 。Papageorgiout'"] | Mohan ^ 和 Viola ^! 等 人 将 图 像 由 空间 域 
映射 到 频 域 ,采用 类 似 于 Haar 小 波 的 频谱 方法 表示 图 像 区 域 ， 结 合 支持 向 量 机 
和 核 方法 ， 实 现 了 行人 、 人 脸 和 汽车 等 目标 的 检测 与 识别 。 

3. 差分 描述 子 

一 系列 的 图 像 导 数 也 可 以 用 来 描述 一 个 点 附近 的 区 域 特 征 。Koenderink 和 
Doornt' 就 提出 了 用 差分 计算 来 获取 导数 的 近似 ， 并 得 到 了 local jet 描述 子 ; 此 
Ja, Florack 等 人 M1 又 改进 了 该 描述 子 ， 使 其 具有 旋转 不 变性 ; Freeman 和 Adel- 
sonl 的 提出 的 导向 滤波 器 (Steerable Filters) 是 对 local jet 的 进一步 完善 ， 它 通 
过 与 高 斯 导数 卷 积 并 调整 导数 沿 着 梯度 方向 ， 使 得 该 描述 子 适 用 于 旋转 和 光照 
变化 的 图 像 ， 复 数 滤 波 器 (Complex Filters) 是 利用 方程 K(x, y, 0) 2f(x, y) 
exp( 刘 ) 的 求 导 结果 对 区 域 进行 描述 的 ， 其 中 0 是 方向 ， 而 f(x，y) 的 形式 要 根 
据 具体 情况 而 定 ，Baumberg' 用 的 是 高 斯 导数 ，Schaffalitzky 和 Zisserman''® Jl] 
用 多 项 式 。 

4. 其 他 描述 子 

Gool5 提 出 的 广义 不 变 矩 是 指 物体 图 像 经 过 平移 、 旋 转 以 及 比例 变换 仍 保 
持 不 变 的 抢 特 征 量 。 不 变 抢 描述 了 一 个 区 域内 的 形状 和 亮度 分 布 ， 它 的 特征 维 
数 较 少 ， 对 彩色 图 像 的 每 个 颜色 通道 的 计算 结果 都 很 稳定 ， 但 高 阶 矩 对 几何 失 
真 和 光亮 度 失真 比较 敏感 。 基 于 人 类 对 纹理 的 视觉 感知 的 心理 学 的 研究 ，Tamu- 
ra 等 人 49 提出 了 纹理 特征 的 表达 ， 它 用 以 描述 特征 区 域 的 六 个 分 量 分 别 是 对 比 
度 、 方 向 度 、 粗 糙 度 、 线 像 度 、 规 整 度 和 粗略 度 ， 这 种 局 部 特征 常用 于 图 像 检 
索 领域 ， 对 纹理 图 像 的 识别 效果 比较 好 。 

随 着 技术 的 进步 ， 不 断 有 新 的 描述 子 出 现 ， 但 每 种 描述 子 都 有 一 定 的 适用 
范围 ， 而 且 其 性 能 与 特征 区 域 检 测 方 法 没有 必然 的 联系 。 总 体 看 来 ，GLOH 和 
SIFT 描述 子 应 用 比较 广泛 ， 性 能 比较 稳定 ; SC 描述 子 在 形状 特征 明显 的 目标 识 
别 中 效果 很 好 ,但 在 纹理 图 像 和 非 刚性 目标 的 识别 中 效果 不 佳 ;在 低 维 描述 子 
中 ， 不 变 矩 和 导向 滤波 需 的 性 能 要 略 胜 一 筹 。 
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4.3.2 基于 梯度 分 布 的 描述 子 


Lowe 提出 的 SIFT 描述 子 对 后 来 的 许多 基于 梯度 分 布 的 特征 描述 子 都 产生 了 
深远 的 影响 。 例 如，GH 和 SC 描述 子 的 主要 思想 就 和 SIFT 描述 子 类 似 ， 只 是 它 
们 描述 的 是 区 域内 边缘 的 分 布 ， 主 要 应 用 于 边缘 特征 比较 明显 、 稳 定 的 图 像 ; 
PCA-SIFT 和 GLOH 描述 子 都 是 对 SIFT 描述 子 的 扩展 ， 它 们 在 区 域 和 梯度 方向 上 
采用 了 不 同 的 描述 精度 ， 并 用 主 分 量 分 析 对 特征 向 量 进 行 降 维 处 理 ， 进 一 步 增 
强 了 描述 子 的 鲁 棒 性 和 区 分 度 。 

为 了 使 描述 子 具 有 旋转 不 变性 ， 需 要 为 每 一 个 特征 点 指定 一 个 方向 ， 从 而 
让 局 部 特征 描述 子 与 这 个 方向 因子 相关 。 计 算 特 征 点 邻 域 的 梯度 模 值 以 及 梯度 
方向 的 公式 如 下 : 

m(x, y) 2 V (L(x +1, y) - Lx -1, y)) +(L(x, y +1) -L(x, y -1)Y 

0(x,y) ztan  ((L(x,y +1) -L(x,y -1))/ (L(x +1,y) -L(x -1,y))) 

(4-18) 
式 中 , 二 为 每 个 特征 点 各 自 所 在 的 尺度 。 在 以 特征 点 为 中 心 的 邻 域 窗口 内 计算 像 
素 的 梯度 方向 直方 图 ， 直 方 图 的 范围 是 0° ~360。， 以 10* 为 一 个 步 长 ， 共 分 为 36 
个 方向 。 如 图 4-5 所 示 ， 在 计算 过 程 中 需要 一 个 的 高 斯 权重 窗 (AA PNA 
形 ) ， 中 心 处 的 权 值 最 大 ， 边 缘 处 的 权 值 最 小 ， 右 图 给 出 了 8 个 方向 的 直方 图 示 
例 〈 实 际 应 用 中 和 党 采用 36 个 方向 ) 。 
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图 4-5 由 梯度 方向 直方 图 确定 主 梯度 方向 





为 了 增强 匹配 的 稳定 性 ， 以 梯度 方向 直方 图 的 最 大 值 作为 该 特征 点 的 主 方 
向 ， 并 选择 大 于 主 方向 峰值 80% 的 方向 作为 辅 方向 。 虽 然 在 相同 位 置 和 尺度 可 
能 创建 多 个 特征 点 但 方向 不 同 ， 且 15% 的 特征 点 被 赋予 多 个 方向 ， 这 明显 提高 
了 特征 点 的 区 分 性 

如 图 4-6 所 示 ， 每 一 个 特征 点 都 携带 了 三 种 信息 一 一 位 置 、 尺 度 和 方向 ， 
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由 此 可 以 确定 一 个 SIFT 特征 区 域 ， 可 以 将 坐标 轴 旋 转 为 特征 点 的 方向 ， 进 而 构 
造 出 独特 性 较 高 的 特征 描述 子 ， 且 具有 不 受 有 尺度、 光照、 视角 变化 影响 的 性 质 。 
左 图 中 矩形 的 中 心 点 表示 当前 特征 点 的 位 置 ， 小 第 头 的 长 度 代表 梯度 的 幅 值 ， 
箭头 的 方向 表示 梯度 的 方向 。 圆 形 的 高 斯 窗 〈 越 靠近 中 心 点 ， 贡 献 越 大 ) 尽量 
减 小 那些 远离 特征 区 域 中 心 的 梯度 值 影 响 ， 这 样 就 避免 了 微小 变化 引起 的 描述 
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领域 的 梯度 方向 特征 向 量 
图 4-6 由 邻 域 梯度 信息 生成 特征 向 量 





图 4-6 的 右 图 所 示 的 描述 符 是 基于 一 个 2 x2 个 梯度 方向 直方 图 ，Lowe 建议 
在 实际 应 用 中 采用 16 个 直方 图 进行 描述 效果 最 好 。 即 以 特征 点 为 中 心 取 16 x 16 
像素 大 小 的 邻 域 ， 将 此 邻 域 分 为 16 个 大 小 为 4 x4 个 像素 的 子 区 域 ， 对 每 个 子 区 
域 计算 8 方向 的 梯度 方向 直方 图 。 根 据 子 区 域 位 置 对 相应 的 梯度 方向 直方 图 排 
序 ， 就 构成 了 一 个 4x4x8 =128 维 的 SIFT 特征 向 量 。 如 此 一 来 ， 该 特征 描述 子 
就 消除 了 尺度 变化 、 旋 转变 化 等 因素 的 影响 ， 通 过 向 量 的 长 度 归 一 化 可 以 进 一 
步 消除 光照 变化 的 影响 。 

GLOH 描述 子 是 对 SIFT 描述 思想 的 改进 和 发 展 ， 首 先 利 用 邻 域 像 素 的 梯度 
方向 分 布 为 每 个 特征 点 指定 方向 参数 ， 并 将 坐标 轴 旋 转 为 该 方向 ， 以 确保 旋转 
不 变性 。 然 后 在 特征 点 所 处 的 尺度 空间 ( 即 高 斯 金字 塔 的 某 一 层 ) ， 取 其 周围 的 
16 像素 16 像素 大 小 的 邻 域 ， 用 17 层 放射 状 同心 圆 来 表示 ， 并 对 每 个 子 区 域 计 
算 梯度 方向 直方 图 (梯度 方向 分 为 16 种 ) 。 对 17 个 子 区 域 的 16 方向 梯度 直方 
图 根据 位 置 依次 排序 ， 这 样 就 得 到 一 个 17 x 16 =272 维 的 向 量 。 通 过 主 分 量 分 析 
( Principal Component Analysis, PCA) 进行 降 维 ， 最 终 得 到 一 个 128 维 的 向 量 ， 
在 最 大 程度 保留 原始 数据 的 同时 大 大 减少 了 后 续 应 用 的 计算 时 间 。 

基于 梯度 分 布 的 特征 描述 子 都 可 以 较 稳 健 的 对 发 生 几 何 形 变 、 退 化 、 受 噪 
声 干 扰 的 图 像 局 部 特征 进行 准确 的 匹配 。 而 且 由 于 这 些 特 征 描述 子 在 计算 关键 
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点 方向 时 充分 利用 了 邻 域 信息 ， 这 样 在 一 定 程度 上 可 以 避免 在 小 运动 物体 上 匹 
配 特征 点 ， 因 为 小 运动 物体 的 邻 域 信息 即使 去 除了 尺度 和 旋转 的 因素 后 也 仅 是 
具备 较 少 的 梯度 方向 相似 性 ， 同时 这 些 特征 描述 子 在 计算 关键 点 处 的 梯度 方向 
时 都 使 用 了 直方 图 统计 和 高 斯 加 权 的 思想 ， 这 就 对 存在 定位 偏差 的 特征 点 匹配 
提供 了 更 好 的 适应 性 。 


4.3.3 线 矩 特征 描述 子 


如 第 2 章 2.3.3 节 所 述 ， 面 矩 作 为 一 种 全 局 信息 ， 已 经 广泛 用 于 完全 分 割 后 
的 目标 识别 ， 其 具有 前 面 所 述 的 整体 特征 的 优 缺 点 。 而 针对 图 像 边 缘 计算 的 不 
变 和 矩 ， 我 们 称 之 为 线 矩 ， 作 为 一 种 局 部 特征 ， 它 主要 利用 目标 图 像 的 高 频 信 息 
部 分 一 一 边缘 信息 完成 对 图 像 的 分 析 与 理解 "”。 由 于 通常 目标 边缘 像素 点 的 个 
数 约 为 目标 所 有 像素 点 的 平方 根 ， 所 以 ， 用 目标 边缘 像素 来 表示 其 形状 要 比 用 
目标 区 域内 所 有 的 像素 点 少 得 多 。 

设 数字 图 像 中 的 边缘 曲线 由 个 离散 点 组 成 ， 即 (x,, y), i=1, 2, 
N， 则 p +g 阶 线 矩 的 定义 为 






























































N 
m, = > x y, Al, (4-19) 
il 





式 中 ， Al; = (x; 2x; + (yi -¥:-1) 0 
相应 的 p+g 阶 中 心 矩 定义 为 





[by = > (二 人 (4-20) 
BP ase, ya Ce, yA ARAYA, CRE ES IR AP 


无 关 的 。 
当 对 边缘 曲线 进行 尺度 变化 时 ， 尺 度 的 变化 导致 曲线 长 度 的 变化 ， 相 应 的 
变化 因子 是 k。 此 时 尺度 变化 后 的 中 心 答 成 为 =p XP 
用 零 阶 中 心 矩 对 其 余 各 阶 中 心 矩 进行 归 一 化 ， 可 以 得 到 归 一 化 的 中 心 短 为 
Hn 





Nog 2 (4-21) 
Moo 
对 曲线 来 说 ， 要 满足 尺度 不 变性 ， 从 = 可 推出 
y=p+q+1 (4-22) 


为 了 使 矩 描 述 子 与 平移 、 大 小 、 旋 转 等 因素 无 关 ， 利 用 2 阶 和 3 阶 归 一 化 中 
心 矩 可 以 导出 下 面 7 SEAN ESL 
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Pi = No t] o 


P = (m -N +47), 
93 = (94 -3N d^ + (% 3 730.4 y 


9,7 (9 +72) 十 


2 


(no * 13) 


9, = (m -3N 2) (Ns +N 5) [O0 +N 5 —3 (No +7) ] 
+ 379 4 7-28) (05 + Nos ) [3 0 +N 5) - (na +) ] 
Ps = (Nw =N o EC tu - (Mo *74)] 


+471 (9, +N 


2) (3 * 72) 


9; = (394 = M03) (M39 +N 5) ECN +N 2)? —3 (Mo +) ] 
+ 37 5 = No) (N a + Nos ) [3 CMa +N 12)? — ns +92) ] 


(4-23) 


HIT oie) pe, BID E TIA 7 个 矩 不 变 式 只 有 6 个 是 独立 的 。 
在 不 变 矩 的 实际 计算 过 程 中 ， 如 医学 图 像 ， 其 不 变 矩 数值 分 布 范围 非常 大 。 


而 在 识别 过 程 中 ， 如 果 不 变 和 矩 特 





fil 








F 值 愈 小 ， 对 识别 结果 的 贡献 就 愈 小 ， 如 果 不 


变 矩 特征 值 愈 大 ， 对 识别 结果 的 贡献 就 愈 大 。 为 此 ， 对 7 个 不 变 矩 进行 如 下 修 








正 ， 以 调整 其 取 值 范围 : 
|lg( 


i 


t 
式 中 所 进行 的 修正 变换 应 


4.4 角 点 的 检测 算法 


le; |)| £=1,2,---,7 


ZH 75 EAN RE ERIE AAD BJ EWA PRES o 





(4-24) 


对 于 特征 点 目前 尚 无 严格 的 定义 ， 在 一 些 文献 中 又 被 称 为 兴趣 点 、 显 著 点 、 
关键 点 ， 有 时 也 和 角 点 的 概念 混用 :5 。 以 点 的 位 置 来 表示 的 点 特征 是 一 种 最 简单 
的 图 像 特征 。 事 实 上 ， 特 征 点 既是 一 个 点 的 位 置 辨 识 ， 同 时 也 说 明 它 的 局 部 邻 域 








具有 一 定 的 模式 特征 。 在 参考 文献 




















[170] 中 作者 将 特征 点 分 为 两 类 : 广义 特征 点 


和 狭义 特征 点 。 上 述 特征 区 域 检 测 中 的 特征 点 就 是 广义 特征 点 ， 它 本 身 的 位 置 不 
具备 特征 意义 ， 只 代表 满足 一 定 特征 条 件 的 特征 区 域 的 位 置 ， 这 种 特征 可 以 不 是 
物理 意义 上 的 特征 ， 只 要 满足 一 定 的 数学 描述 就 可 以 。 因 此 ， 从 本 质 上 说 ， 广 义 








特征 点 可 以 认为 是 一 个 抽象 的 特 和 














F 区 域 ， 它 的 属性 就 是 特 和 











FE 区 域 具 备 的 属性 。 而 


狭义 特征 点 的 位 置 本 身 具有 常规 的 属性 意义 ， 比 如 角 点 、 交 叉 点 等 等 。 
对 角 点 不 同 的 理解 产生 了 关于 角 点 的 不 同 定义 ， 如 图 像 中 具有 周围 灰 度 变 
化 剧烈 特征 的 点 ; 图 像 边界 上 具有 曲率 足够 高 的 点 ;图像 中 具有 最 大 偏转 角 和 
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偏差 的 点 ; 两 条 边界 以 一 定 的 角度 相交 的 地 方 、 边 界 方向 发 生 剧 变 的 地 方 以 及 
图 像 灰 度 梯度 方向 变化 较 大 的 地 方 等 。 在 上 述 思想 的 指导 下 产生 了 许多 角 点 检 
测算 法 ， 其 中 ， 直 线 投 影 法 和 SUSAN 检测 法 是 目前 最 为 常用 的 两 种 。 


4.4.1 直线 投影 检测 算法 

直线 投影 法 是 一 种 基于 边界 的 角 点 检测 算法 ， 其 核心 思想 就 是 把 角 点 定义 
在 目标 的 轮廓 线 上 ， 先 分 割 图 像 ， 抽 取 目 标 边界 的 Freeman 链 码 ， 将 方向 改变 程 
度 较 大 的 点 标记 为 角 点 。 

设 工 为 目标 区 域 边界 ， 其 局 部 连续 链 码 可 表示 为 

L = {0 ,0 42")} (4-25) 

IP, s 为 链 码 的 环 数 ; j 为 链 码 的 终点 ; a 为 点 i-1 到 i 的 方向 码 (i =j -s+1， 
j-s+2, 0, 让。 在 x 和 yy 方向 的 投影 ， 即 在 链 码 7 和 1 的 方向 的 投影 》 


x = 2 a7, T 之 ai (4-26) 


AF, az, a; ,的 值 由 方向 码 a MSE, 见 表 4- 1, 
#4-1 a;EBaj, a 的 关系 















































a; 0 1 2 3 4 5 6 7 
ag 4272 0 4272 -1 4272 0 4272 1 
dj 4272 1 2/2 0 4272 -1 42/2 0 





x s 值 较 小 时 ， 可 以 将 其 看 成 直线 ， 即 有 链 码 的 向 量 表示 形式 为 
L =xi+yj (4-27) 
那么 ， 其 长 度 可 以 表示 为 
[El = fal + OY (4-28) 
对 于 链 码 到 ,,， 同 样 有 
|J (4-29) 
IE =f + Oty (4-30) 
显然 ， 边 界 在 点 7 处 的 曲率 可 由 其 两 侧 的 局 部 链 码 向 量 EA L, ,的 夹 角 0 来 近似 
计算 ， 由 于 




















E; È, = ll IE, + cost (4-31) 
可 以 推 得 
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"P Aj us TY (4-32) 
J 008 $42 $42 s 2 " 2 7 
GC e QE x f Gr, Y +O) 


可 以 求 得 所 有 边界 点 的 曲率 9 ， 在 整 条 链 上 的 局 部 极 大 值 位 置 就 是 角 点 。 

由 于 提取 的 角 点 在 轮廓 的 参照 中， 信息 最 为 丰富 ， 能 构造 出 针对 不 同 应 用 
于 的 特征 向 量 。 但 该 方法 对 前 期 的 图 像 分 制 有 很 大 的 依赖 性 ， 而 图 像 分 割 本 
运算 比较 复杂 ， 分 割 过 程 中 出 现 的 任何 错误 都 有 可 能 影响 角 点 的 检测 。 不 过 ， 
图 像 分 割 效 果 良 好 的 情况 下 ， 这 类 方法 简单 实用 ， 且 有 和 较 高 的 检测 精度 和 稳 
性 。 


4.4.2 SUSAN 算法 的 自 适 应 阀 值 改进 


Smith 和 Brady" 提出 的 SUSAN 算法 是 一 种 应 用 广泛 的 基于 图 像 灰 度 变 化 
的 方法 ， 随 后 出 现 的 MIC 算法 2” 等 都 是 它 的 思想 的 改进 和 发 展 。 该 算法 使 用 一 
个 可 调节 大 小 的 圆 形 模板 ， 模 板 内 的 每 一 像素 点 灰 度 值 与 中 心 像素 点 灰 度 值 比 
较 ， 灰 度 值 与 中 心 像素 点 相近 的 点 组 成 的 区 域 ， 称 为 USAN ( Univalue Segment 
Assimilating Nucleus) 区 域 。SUSAN 算法 就 是 根据 各 个 待考 察 点 的 USAN 区 域 面 
积 来 判断 当前 点 是 区 域内 部 点 、 边 界 点 还 是 角 点 。 

1. 基于 SUSAN 算法 的 角 点 检测 

如 图 4-7 所 示 ，a 点 模板 处 于 背景 中 ， 整 个 模板 都 属于 USAN 区 域 ; b 点 有 
超过 一 半 的 像素 点 属于 USAN Kik; e 点 模板 内 有 一 半 像 素 点 属于 USAN 区 域 ; 
d 点 有 少 于 一 半 的 像素 点 属于 USAN 区 域 。 可 见 ， 如 果 待 考察 的 像素 点 是 角 点 ， 
USAN 区 域 的 面积 最 小 。 


C) 
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d 
图 4-7 USAN 区 域 图 解 


图 4-8 所 示 为 SUSAN 算法 的 三 种 近似 圆 形 模板 ， 在 实际 应 用 中 ，37 邻 域 的 
7 x7 模板 最 为 常用 。 

SUSAN 算法 的 数学 描述 为 : 使 用 近似 圆 形 的 模板 (窗口) 在 图 像 上 滑动 ， 
在 每 一 个 位 置 考察 当前 像素 点 的 USAN 区 域 面积 。 具 体 方法 是 比较 窗口 内 的 每 
一 个 点 与 中 心 点 的 灰 度 值 差异 : 


b 
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图 4-8 SUSAN 算法 的 模板 


n 1 at|%Gry)=1G,) |S 
oF) =] E 4 (4-33) 
0 if|/(r)-I(r)|»t 


为 了 得 到 更 好 的 稳定 性 和 有 效 性 ， 可 以 用 下 面 的 判别 函数 : 
(w (4-34) 
式 中 ,是 当前 像素 点 (中心 点 ) 的 位 置 , 7 是 圆 形 窗口 内 其 他 任意 一 点 的 位 
置 , I(r) 表示 7 点 的 图 像 灰 度 值 。; 则 是 预 设 的 灰 度 差 阐 值 ， 理 论 和 实践 都 证 
Hj. 一般 指数 为 6 时 1 取 25 效果 最 好 。 

计算 以 六 为 中 心 像素 点 的 模板 内 USAN 区 域 大 小 的 公式 表示 如 下 : 


n(n)= > strom) (4-35) 


c(r, 17) =e 











接着 , Men GL BU LA ENG TL AMT AEE g 进行 比较 ， 可 以 得 到 图 像 的 初始 角 点 
响应 ; 


fg-n(m), nG)«g 
R(r,)= a (4-36) 
0, n(r,) 2g 
Rr ) 为 反应 函数 ， 经 过 局 部 非 极 大 值 抑 制 NMS ( Non- maximum Suppression) 之 
后 确立 为 角 点 。 因 为 在 角 点 的 一 个 邻 域内 往往 不 止 一 个 点 的 Rn) 值 大 于 零 ， 只 
有 R(r ) 值 最 大 的 点 才 被 确立 为 角 点 。 

SUSAN 算法 的 优点 是 在 角 点 检测 时 不 需 计 算 梯度 ， 不 需 插值 且 不 依赖 于 前 
图 像 分 割 的 结果 ， 直 接 对 像素 的 邻 域 灰 度 值 比较 即 可 检测 出 角 点 ， 速 度 比 较 
， 有 一 定 的 抗 噪声 干扰 能 力 。 但 是 采用 预 设 的 固定 姜 值 限制 了 该 算法 的 适用 
围 ， 需 要 对 其 做 相应 的 改进 ， 使 得 它 可 以 根据 具体 情况 自 适 应 地 调整 阔 值 。 

2. REDE Bi NYSE 

在 SUSAN 算法 中 ， 几 何 阔 值 g AIA BE BUE t WE FA EGRE ee, JL BEL g 
决定 了 提取 的 角 点 的 尖锐 程度 ，g 越 小 提取 的 角 点 越 尖 锐 。 在 用 SUSAN 算法 进 





























Es x Ox 














. 94 . ”图像 目标 的 表示 与 识别 


行 边缘 提取 的 时 候 通常 取 g =3/4n,,， 进 行 角 点 提取 的 时 候 ， 则 取 g =1/2n,,,. 

般 而 言 ， 对 于 g 不 需要 通过 调整 就 能 取得 较 好 的 效果 。 灰 度 差 阔 值 :决定 
了 SUSAN 算 子 所 能 检测 到 的 最 小 的 对 比 度 以 及 去 除 噪 声 点 的 能 力 。: 越 小 ， 检 
测 到 的 角 点 就 越 少 ， 有 可 能 漏 检 。: 越 大 ， on 但 有 可 能 
误 检 。 因 此 ， 如 果 对 于 灰 度 细节 比较 丰富 的 图 像 使 用 统一 的 灰 度 差 阔 值 :， 检 测 
效果 会 不 好 。 所 以 ， 需 要 有 针对 性 地 给 出 一 sid Me end 

对 于 每 个 像素 点 的 SUSAN 模板 ， 通 过 计算 模板 内 每 个 像素 点 与 中 心 点 的 灰 
度 差 得 到 该 模板 的 灰 度 差 直 方圆 ， 然 后 根据 灰 度 差 直方 图 通过 迭代 法 确定 该 模 
板 的 阔 值 :+， 使 得 对 于 不 同 的 对 比 度 的 图 像 都 能 够 自 适应 的 计算 出 每 个 模板 内 适 
合 的 1 值 。 

首先 计算 模板 中 每 点 与 中 心 点 的 灰 度 差 阔 值 ， 然 后 取 灰 度 差 值 的 均值 为 迭 
[Ot to, WFR: 





























i =+ Y d) - 1G) (4-37) 
Se ARAB TCR DEOR EXE HI AS) PERI, SICHERE 








max 





1 S nh È mxh 
list = 2? mae. + ks (4-38) 
Y ho y hm) 
m=0 m=t;+1 


式 中 m 为 模板 中 像素 点 和 中 心 像素 点 的 灰 度 差 值 ，h(m) 为 模板 中 具有 该 灰 度 差 
值 的 点 的 数量 ，C, 为 灰 度 差 值 的 最 大 值 ， 迭 代 终 止 的 条 件 是 |1;,, -万 | =0。 

因为 每 个 模板 的 上 是 根据 模板 内 的 灰 度 差 值 确定 的 ， 因 此 能 够 很 好 地 检测 到 
不 同 灰 度 对 比 度 下 的 灰 度 变化 ， 使 得 USAN 区 域 的 判断 更 加 准确 。 











45 实验 结果 与 分 析 


l. 实验 环境 
(1) 硬件 环境 
普通 DELL 台式 计算 机 一 台 ， 基 本 配置 为 P (R) D/3.4GHz/1.00G/160C/19in® 。 
(2) 软件 环境 
WindowsXP 操作 系统 ，Visual Studio C+ +6. 0 开发 平台 ，OpenCV 函数 库 。 








© lin=25.4mm 
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2. 实验 数据 来 源 

Caltech101 图 像 库 共 有 101 类 目标 ， 每 类 目标 有 40 ~ 800 幅 图 像 ， 图 像 大 小 
为 300 x200 像素 ; 普林斯顿 大 学 三 维 模型 库 (Princeton Shape Benchmark ) 9 中 的 
模型 可 以 投影 为 2D 图 像 ， 模 拟 相 应 物体 分 割 后 的 二 维 灰 度 图 像 。 我 们 从 普 林 斯 
顿 模型 库 中 挑选 出 一 个 飞机 模型 R16、 一 个 坦克 模型 T60、 一 辆 汽车 模型 用 来 进 
行 与 角 点 检测 相关 的 实验 。 

实验 1: DoG 特征 点 检测 与 SIFT 特征 描述 子 表示 

如 图 4-9e 和 4.9d 所 示 ，DoG 检测 算 子 是 稀 玻 选取 法 的 典型 代表 ， 其 检测 出 






































图 4-9 图 像 局 部 特征 的 提取 与 表示 
a) 建筑 物 与 人 b) 汽车 与 树 c) 建筑 物 与 人 的 特征 点 d) 汽车 与 树 的 
PLR e) 建筑 物 与 人 的 特征 描述 f) 汽车 与 树 的 特征 描述 
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测算 法 往往 和 











的 位 置 ， 篆 头 的 长 度 代表 该 特 和 
方向 。 


F 区 域 数量 一 般 在 200 ~3000 个 ， 其 主要 优点 是 简洁 、 紧 致 ， 图 像 的 特征 点 
远 远 少 于 图 像 的 像素 ,使 得 后 面 的 识别 过 程 能 


限 。 图 4-9e 和 4-9f 为 SIFT 描述 子 的 向 量 表示 方式 ， 箭 头 的 起 点 代表 该 特 生 





点 








大 大 加 速 。 但 很 多 特征 区 域 检 








图 像 的 特性 相关 ， 应 用 到 通用 目标 识别 时 ， 可 能 会 有 一 定 的 局 
F 点 
F 点 所 处 的 太 度 ， 箭头 的 方向 代表 该 特征 点 的 主 





实验 2: 直线 投影 和 SUSAN 角 点 检测 
WI 4-10 所 示 ， 直 线 投影 法 相对 来 说 简单 实用 ， 具 有 较 高 的 检测 精度 和 稳 





定性 ， 由 于 把 角 点 定义 在 目标 的 轮廓 线 上 ， 必 须 先 
I 有 很 大 的 依赖 性 ， 而 图 像 分 
Ts 581 3 
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样 一 来 对 前 期 的 图 像 分 
制 过 程 中 出 现 的 任何 错误 都 有 可 能 影 
BE, 不 需 插值 且 不 依赖 于 前 期 图 像 分 
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1 图 像 并 进行 二 值 化 ， 这 
1 本 身 运算 比较 复杂 ， 分 


1 结果 。SUSAN 算法 则 不 需 计 算 梯 
1 的 结果 ， 直 接 对 像素 的 邻 域 灰 度 值 比较 
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干扰 能 力 有 所 加 强 ， 角 点 检测 效果 比较 理想 。 
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战斗 机 轮廓 图 


战斗 机 角 点 -直线 投影 


坦克 轮廓 图 


坦克 角 点 -直线 投影 
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图 4-10 二 值 图 像 的 角 点 检测 效果 








第 4 章 图 像 目 标的 局 部 特征 提取 

















战斗 机 角 点 -SUSAN 坦克 角 点 -SUSAN 小 汽车 角 点 - SUSAN 


图 4-10 二 值 图 像 的 角 点 检测 效果 ( 续 ) 


4.6 本章 小 结 


本 章 将 局 部 特 生 
本 书 的 实验 需要 ， 在 DoG Trl 
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F 的 提取 作为 目标 识别 的 基础 和 关键 进行 了 深入 研究 ， 根 据 
FE 点 检测 的 基础 上 结合 SIFT 和 GLOH 描述 子 完成 了 


对 复杂 图 像 的 局 部 特征 提取 与 描述 ; 在 狭义 特征 点 一 一 角 点 的 检测 技术 研究 中 ， 
针对 SUSAN 算 子 固定 阔 值 的 问题 ， 提 出 了 自 适 应 阔 值 的 改进 方法 ， 使 得 算法 的 
应 用 更 加 灵活 ， 检 测 结果 更 加 稳定 、 有 效 。 
最 近 几 年 国内 外 学 者 提出 了 许多 局 部 特征 提取 方法 ， 但 现 有 的 局 部 特征 都 
有 各 自 的 局 限 性 。 随 着 在 图 像 目 标 分 类 、 图 像 目 标 检测 等 领域 的 深入 应 用 ， 如 


何 选择 合适 的 局 部 特 行 














F 来 完成 具体 识别 任务 成 为 了 算法 的 关键 技术 。 而 局 部 特 








fi 





FE 和 整体 特有 














F 各 自 都 有 优势 和 缺点 ， 如 果 能 将 多 种 局 部 特有 有 








来 ,在 目标 识别 领域 将 会 有 更 好 的 发 展 前 景 和 实用 价值 。 


F 与 整体 特 和 有 


Eo a 
结合 起 
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在 科学 领域 ， 我 们 探索 真理 的 方法 是 : 根据 事实 来 
设计 实验 ， 修 改 它 们 ， 然 后 再 进行 更 多 的 实验 。 


5.1 引言 





场景 图 像 与 照明 、 摄 像 机 参数 、 摄 像 机 位 置 等 因素 有 关 ， 因 此 ， 要 从 一 幅 
图 像 中 对 目标 进行 匹配 识别 ， 特 别 是 从 复杂 背景 多 物体 的 图 像 中 识别 特定 目标 ， 
必须 考虑 这 些 因素 : 场景 的 不 变性 ， 场 景 的 复杂 度 取决 于 获取 图 像 时 的 条 件 
(照明 、 背 景 、 摄 像 机 参数 和 观察 点 ) 是 否 同 模型 建立 条 件 相 似 ， 场 景 的 条 件 显 
著 地 影响 同一 物体 的 图 像 ， 图 像 模型 空间 ， 二 维 图 像 是 三 维 物体 在 二 维 空间 的 
映射 ， 加 之 物体 运动 时 的 情况 更 为 复杂 ; 模型 库 中 物体 的 数目 ， 用 于 物体 识别 
的 特征 选择 计算 量 随 着 物体 数量 的 增加 而 迅速 增加 ; 图 像 中 的 遮挡 问题 ， 遗 挡 
导致 原先 特征 点 消失 ， 新 特征 点 的 产生 ， 因 此 在 假设 验证 阶段 就 应 该 考虑 诞 挡 
问题 。 

局 部 特征 的 提出 使 得 目标 匹配 可 以 从 整体 匹配 的 形式 转变 为 局 部 匹配 
的 形式 ， 从 而 为 遗 挡 目 标的 识别 和 不 同 姿态 的 同一 目标 的 识别 开辟 了 一 条 
有 效 的 途径 。 近 些 年 来 ， 随 着 基于 局 部 特征 的 目标 匹配 方法 的 不 断 发 展 和 
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改进 ， 其 广泛 应 用 于 图 像 拼 接 和 图 像 检 索 领域 ”i ， 并 取 了 阶段 性 的 成 
果 。 本 章 在 对 国内 外 相关 领域 的 众多 研究 成 果 进 行 深入 探讨 之 后 ， 针 对 局 
部 特征 匹配 在 目标 图 像 拼 接 和 图 像 检 索 中 应 用 的 不 足 ， 提 出 了 基于 多 分 辩 
率 技术 和 局 部 特征 的 航拍 图 像 拼 接 方 法 ， 以 及 基于 原型 匹配 的 图 像 检 索 
方法 。 


























5.2 结合 NNDR 与 堆 夫 变换 的 匹配 方法 





在 建立 两 幅 图 像 之 间 局 部 特征 的 匹配 关系 时 ， 可 以 参照 Mar 等 人 中 提出 
的 匹配 应 该 满足 唯一 性 、 相 似 性 、 连 续 性 三 个 基本 约束 条 件 ， 即 物体 表面 任意 
一 点 到 观察 点 的 距离 是 唯一 的 ， 因 此 其 视差 是 唯一 的 ， 给 定 一 幅 图 像 中 的 一 点 ， 
其 在 男 一 幅 图 像 中 对 应 的 匹配 点 最 多 只 有 一 个 ; 对 应 的 特征 应 有 相同 的 属性 ， 
在 某 种 度量 下 ， 同 一 物理 特征 在 两 幅 图 像 中 具有 相似 的 描述 符 ; 与 观察 点 的 距 
离 相 比 ， 物 体 表 面 因 四 是 不 平 引起 的 深度 变化 是 缓慢 的 ， 因 而 视差 变化 是 缓慢 
的 ， 或 者 说 视差 具有 连续 性 。 


5.2.1 基于 NNDR 的 匹配 策略 


目前 常用 的 目标 匹配 策略 有 两 种 : 一 种 是 距离 阐 值 法 (Threshold- based 
Matching) ， 即 竺 匹配 目标 与 模型 之 间 的 距离 小 于 某 个 阅 值 ， 则 认为 匹配 上 了 ， 
该 方法 非常 简单 ， 但 是 浆 值 的 确定 非常 困难 ， 而 且 目 标 很 容易 匹配 上 多 个 模 
型 ， 从 而 产生 大 量 的 误 匹 配 ; 另 一 种 是 最 小 距离 法 (Minimum Distance) , ， 即 
目标 只 匹配 与 其 距离 最 近 的 模型 ， 实 际 应 用 中 一 般 还 需要 满足 距离 小 于 某 个 
浆 值 的 条 件 ， 该 方法 只 有 一 个 最 佳 的 匹配 结果 ， 相 对 于 距离 闪 值 法 来 说 ， 正 
确 率 要 高 。 

由 于 图 像 的 内 容 千 差 万 别 ， 加 上 场景 中 的 运动 物体 、 不 重奏 内 容 以 及 图 像 
质量 等 因素 的 存在 ,一 幅 图 像 中 的 局 部 特征 并 不 一 定 能 够 在 男 一 幅 图 像 中 找到 
相似 的 特征 ， 这 就 需要 采取 措施 剔除 那些 产生 干扰 的 噪声 点 ， 通 常 把 这 样 的 点 
称 为 “外 点 ”。 许 多 图 像 的 背景 比较 相似 并 不 具有 区 分 性 ， 如 天 空 、 了 旷野 之 类 ， 
它们 的 局 部 特征 之 间 的 距离 要 小 于 有 用 的 特征 之 间 的 距离 ， 但 是 它们 并 不 能 描 
述 图 像 的 主要 内 容 ， 所 以 设置 一 个 全 局 性 的 距离 阐 值 来 决定 局 部 特征 匹配 与 否 
显然 是 不 合适 的 。 

对 SIFT 特征 的 研究 91 表明 ， 可 以 通过 比较 最 近邻 (First Nearest Neighbor) 
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特征 和 次 近邻 (Second Nearest Neighbor) 特征 的 距离 可 以 有 效 地 甄别 局 部 特征 
是 否 正确 匹配 。 这 就 是 最 邻近 距离 比值 法 (Nearest Neighbor Distance Ratio, 
NNDR), ， 其 表述 如 下 ， 如 果 待 匹配 特征 为 D, ， 其 最 邻近 特征 为 总， 次 邻近 特征 
为 D.。 ， 那 么 判断 该 特征 匹配 的 条 件 为 : 

|D, -Dsl 

ID, - Dell 

该 方法 理论 来 源 是 ， 如 果 一 个 特征 在 一 幅 图 像 中 与 两 个 特征 的 距离 都 很 

相近 ， 那 么 该 特征 的 区 分 度 较 低 ， 也 违背 了 Marr 提出 的 “匹配 应 该 满足 唯 
一 性 ”的 原则 ,会 对 图 像 相 似 度 的 判断 产生 干扰 。 如 图 5-1 所 示 ， 进 行 
SIFT 特征 匹配 的 实验 结果 也 证 实 了 这 一 点 ， 当 剔除 与 最 近邻 点 和 次 近邻 点 
距离 比值 大 于 0. 8 的 特征 对 时 ， 排 除了 90% 的 干扰 而 仅 仪 误 删 了 5% 的 正确 
特征 对 。 
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图 5-1 特征 点 匹配 的 概率 分 布 


该 实验 从 图 像 数 据 库 中 选取 的 待 匹 配 图 像 ， 共 提取 了 40000 个 SIFT 特征 ， 
对 这 些 待 匹配 的 图 像 进行 了 随机 数值 的 尺度 变化 和 平面 旋转 ， 并 进行 了 深度 小 
于 30° 的 视角 变化 处 理 ， 同 时 也 加 入 2% 的 高 斯 噪声 。 


5.2.2 邻近 特征 点 的 搜索 算法 


用 穷 举 法 搜寻 最 邻近 点 以 及 次 邻近 点 ， 可 以 得 到 最 精确 的 结果 。 但 是 由 于 
本 书 所 用 的 特征 空间 一 般 都 高 达 128 维 以 上 ， 加 之 复杂 图 像 的 局 部 特征 数量 比 
较 多 ， 搜 索 算 法 的 效率 显然 成 为 了 整个 系统 的 一 个 瓶颈 。 

1. K-D 树 搜 索 策 略 

标准 K- D 树 是 Friedman 45 A 提出 的 一 种 高 维 二 又 树 ， 天 表示 空间 的 维 
数 ， 在 其 上 可 实现 对 给 定 特征 点 的 快速 最 近邻 查找 。 若 某 K-D 树 的 结 点 数目 为 
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N， 则 在 它 上 面 的 最 邻近 节点 的 平均 计算 复杂 度 为 0(lgV) 。 其 后 又 相继 提出 了 
K-D WAY 1 +e 近似 最 近邻 搜索 算法 (ANNS) ， 其 主要 思想 是 在 搜索 时 只 查询 那 
些 与 给 定 特 征 点 的 距离 小 于 当前 最 近 距 离 1/0 +e) 倍 的 点 ， 此 时 搜索 完成 时 返 
回 的 点 未 必 是 真实 的 最 近邻 点 (除非 a =0) ， 但 是 即使 当 e 取 的 较 大 (Ul e =3 
时 ) ， 所 返回 的 点 仍然 有 50% 的 机 会 是 真实 的 最 近邻 点 ， 而 且 在 平均 意义 上 它们 
到 目标 点 的 距离 只 是 真实 最 近邻 点 到 目标 点 的 距离 的 11.5 倍 ， 取 得 的 加 速 比 却 
可 以 达到 50 SAE, 

在 数据 维 数 较 低 的 时 候 ，K-D 树 搜索 方法 比较 有 效 。 在 更 高 维 的 数据 空间 
中 将 会 有 更 多 的 分 类 结果 接近 目标 真实 数据 ， 此 时 使 用 k-D 树 进 行 搜索 的 话 ， 
效率 将 会 急剧 下 降 。 本 书 所 用 的 特征 空间 一 般 都 高 达 128 维 以 上 ， 为 此 本 书 使 
用 了 Beis 和 Lowe 提出 的 Best- Bin- First (BBF) 算法 5029 ， 它 对 常规 的 KK-D 树 搜 
索 方法 进行 改进 ， 从 而 实现 较 快 的 匹配 点 搜索 。 

2. 基于 BBF 算法 的 搜索 策略 

在 高 维 数据 搜索 空间 中 ，K-D 树 搜索 的 结果 仅仅 只 有 很 少 的 一 部 分 满足 邻 
近 原 则 ， 为 了 加 快 搜索 速度 ， 可 以 通过 减少 搜索 节点 来 缩小 搜索 范围 。 这 需要 
使 用 一 个 基于 堆 的 优先 级 队列 ， 将 搜索 空间 的 节点 按照 与 待 查 询 节 点 的 距离 来 
进行 排序 。 当 搜索 到 的 节点 符合 设 定 的 约束 条 件 ， 则 记录 到 优先 级 队列 中 去 ， 
从 而 获取 下 一 个 候选 节点 的 信息 (包括 该 节点 在 当前 树 的 位 置 和 到 待 查询 节点 
的 距离 )。 当 一 个 最 邻近 点 被 搜索 到 后 ， 则 从 队列 的 队 首 删除 一 项 ， 然 后 继续 搜 
索 包含 最 近邻 节点 的 其 他 分 支 。 

如 图 5-2 所 示 ， 对 于 特征 点 数量 达到 10000 、 维 度 为 5 ~ 25 的 数据 检索 中 ， 
按照 BBF 算法 改进 的 搜索 策略 很 大 程度 上 提高 了 检索 效率 ， 而 标准 的 K-D 树 搜 
索 策 略 在 数据 维度 达到 10 后 其 效率 便 明 显 下 降 了 。 
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图 5-2 BBF 算 法 与 K-D 树 的 搜索 时 间 代 价 


提高 了 2 个 数量 级 的 同时 ， 平 均 只 丢失 5% 的 特 生 

















$53: 基于 局 部 特征 的 目标 匹配 - 103. 
本 书 设 定 的 约束 条 件 是 检查 前 200 个 最 邻近 候选 节点 ， 该 算法 在 搜索 速度 























说 是 可 以 容忍 的 。 当 距离 非常 相近 的 特征 点 需要 进一步 王 别 的 时 候 ， 
的 搜索 效率 会 受到 制约 ， 但 是 本 书 剔 除了 与 最 近邻 点 和 次 近邻 点 距离 比值 大 于 
0.8 的 特征 对 ， 这 就 基本 上 避免 了 这 一 困境 。 


5.2.3 ”基于 霍 夫 变换 的 目标 检测 
一 幅 图 像 往往 可 以 提取 出 超过 2000 个 局 部 特征 ， 而 这 些 局 部 特征 很 可 能 3 





自 场景 中 的 多 个 物体 或 背景 。 如 何 从 这 些 特征 中 寻找 到 只 属于 待 识 另 
F 子 集 ， 这 是 进行 目标 匹配 识别 所 必须 解决 的 问题 。 和 堆 夫 变换 (Hough 


部 特 生 








FE 对 ， 这 对 于 一 般 的 图 像 检索 来 


BBF 算法 
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Transform) 为 此 提供 了 一 条 高 效 的 途径 。 
基本 的 霍 夫 变换 最 初 是 用 来 进行 直线 检测 的 ， 而 广义 霍 夫 变换 则 可 以 在 所 
需 检 测 的 曲线 或 目标 轮廓 没有 或 不 易 用 解析 表达 式 时 ， 利 用 表格 来 建立 曲线 或 


轮廓 点 与 参考 点 间 的 关系 ， 进 而 检测 


过 设置 累加 器 进 行 累 积 ， 











上 目标 ”1 。 霍 夫 变 换 的 基本 思想 是 将 原 图 
像 变 换 到 参数 空间 ， 用 大 多 数 边界 点 满足 某 种 参数 形式 来 描述 图 像 中 的 线 ， 通 
求 得 峰值 对 应 的 点 所 需要 的 信息 。 霍 夫 变换 以 其 对 局 








部 缺损 的 不 敏感 ， 对 随机 噪声 具有 重 棒 性 以 及 适 于 并 行 处 理 等 优良 特性 ， 备 受 


图 像 处 理 、 横 式 识别 和 计算 机 视觉 领域 学 者 的 青睐 。 和 堆 夫 变换 的 突出 优点 就 是 





可 以 将 图 像 中 较为 困难 的 全 局 检测 问题 转换 为 参数 空间 中 相对 容易 解决 的 局 部 
峰值 检测 问题 。 


霍 夫 变换 利用 点 线 对 介 




















坐标 系 下 ， 利 用 公式 (5-2) 表示 过 点 (x, y) 的 直线 L 的 方程 : 


式 中 ， 
方程 : 







P3: (X2,¥2) 


Lj: b-7—x3ktYy; 


TC. Po (ko, bo) 


~ Lo: y=kox+bo 
s 

Pi: (x1,71) ~ 

Lj: b-—xjkty, 








图 5-3 直线 检测 中 的 霍 夫 变换 


=k x + bo 


y 
ko 为 斜率 ; by 为 截 距 。 将 其 变换 为 参数 空间 中 过 点 (ko, bo) 的 直线 





性 原理 进行 坐标 变换 ， 原 理 如 图 5-3 所 示 ， 在 直角 





(5-2) 
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by = -xko +y (5-3) 
可 以 看 出 ， 直 线 L 上 的 两 个 点 (x , y) 和 (x,，y,)， 在 参数 空间 中 表示 为 两 
条 直线 不 同 的 直线 L, 和 五， 而 它们 在 参数 空间 中 相交 于 (ko, bo) 点 。 也 就 是 
说 ， 原 图 像 空间 中 同一 条 直线 上 的 不 同 点 在 参数 空间 中 被 变换 为 一 组 相交 于 同 
一 点 的 直线 。 

使 用 公式 (5-2) 表示 一 条 直线 带 来 的 一 个 问题 是 ， 当 直线 接近 垂直 时 ， 直 

线 的 斜率 接近 无 限 大 。 解 决 这 一 难点 的 一 种 方法 是 使 用 极 坐 标 方程 来 表示 直线 : 

p =xcos@ +ysing0 (5-4) 
其 中 p 为 原点 到 直线 的 距离 〈 即 原点 到 直线 的 垂直 线 的 长 度 ) 0 确定 了 直线 的 
方向 ( 即 原点 到 直线 的 垂直 线 与 x 轴 方 向 的 夹 角 )。 如 果 对 位 于 同一 直线 上 的 n 
个 点 进行 霍 夫 变 换 ， 则 原 图 像 空间 中 的 这 nn 个 点 在 参数 空间 中 对 应 得 到 n ARIE 
弦 曲 线 ， 并 且 这 些 曲 线 相交 于 同一 点 了 ， 若 能 确定 参数 空间 中 的 Pu 点 (局 部 最 
大 值 )， 也 就 实现 了 直线 的 检测 。 

本 书 对 目标 姿态 建立 一 个 参数 空间 ， 将 目标 的 2D 坐标 、 尺 度 、 方 向 参数 等 
坐标 轴 按 照 一 定 的 步 长 划分 为 若干 等 份 ， 然 后 将 所 有 匹配 的 特征 点 向 这 个 参数 
空间 投票 ， 对 参数 空间 每 个 点 的 投票 累加 值 进 行 分 析 ， 累 加 值 大 的 点 所 对 应 的 
目标 姿态 有 更 高 的 概率 出 现在 图 像 中 。 在 实际 应 用 中 ， 对 于 参数 空间 坐标 轴 步 
K, 一 般 2D 坐标 为 训练 集中 目标 最 大 尺寸 的 0.25 倍 ， 尺 度 因 子 为 2， 方 向 参数 
为 30°*。 累 加 值 和 预 设 的 阅 值 进行 比较 ， 当 大 于 立 值 时 ， 则 判定 该 点 所 对 应 的 日 
标 姿态 存在 于 图 像 中 。 

在 图 5-4 中 ， 左 图 所 示 的 两 个 目标 一 一 玩具 火车 和 玩具 青蛙 ， 由 于 其 他 物 
体 〈 包 和 箱子 等 ) 的 存在 ， 在 中 间 的 图 像 里 都 产生 了 局 部 遮挡 ， 而 采用 上 述 的 
目标 匹配 方法 都 可 以 将 这 些 目 标识 别 出 来 ,识别 效果 图 如 右 图 所 示 。 大 的 和 矩形 
框 中 是 识别 出 的 目标 ， 小 的 矩形 框 代表 识别 所 用 到 的 局 部 特征 。 


< | ¢ Wp sa — 

















图 5-4 局 部 遮挡 目标 检测 (来 源 : Lowe, 2004  ) 
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5.3 ”基于 局 部 特征 和 多 分 辨 率 技术 的 图 像 拼 接 





航拍 图 像 拼 接 技术 是 当前 机 器 视觉 领域 的 一 个 研究 热点 ， 已 经 被 广泛 应 用 
于 地 理 信息 系统 、 地 质 灾害 监测 、 城 市 规划 和 战场 态势 评 佑 等 许多 方面 。 其 主 
要 内 容 和 一 般 的 图 像 拼 接 一 样 ， 就 是 将 一 组 互相 有 重 受 部 分 的 图 像 序列 进行 空 
间 配 准 ， 拼 成 一 幅 包 含 各 图 像 序列 信息 的 宽 视角 、 完 整 的 新 图 像 ， 以 满足 现实 
BORO". 但是， 由 于 是 在 飞行 器 上 对 地 面 场景 的 俯视 拍摄 ， 所 以 又 有 其 自身 的 
特点 和 难点 ， 比 如 飞行 右 姿 态 变 化 导致 的 航拍 视角 改变 、 飞 行 带 升降 造成 的 图 
像 分 辨 率 不 同 、 天 气 状 况 对 图 像 质量 的 影响 等 。 

图 像 拼 接 方 法 通常 可 以 分 为 两 类 "| ， 一 类 是 将 场景 投影 到 柱 面 坐标 下 
进行 拼接 ， 这 类 方法 模型 简单 且 计 算 速 度 快 , 但 是 要 求 相机 只 能 围绕 光 心 做 水 
平 旋转 运动 ， 还 需要 获取 拍摄 每 幅 图像 的 焦距 。 该 方法 比较 适合 于 全 景 图 像 拼 
接 。 另 一 类 方法 则 是 以 仿 射 变换 模型 为 理论 基础 ,广泛 应 用 于 航拍 图 像 拼 接 ， 
一 般 首 先 需要 根据 飞行 顺和 相机 的 参数 计算 图 像 的 位 置 坐标 并 排列 图 像 ， 然 后 
检测 相 邻 图 像 重 和 至 区 域内 的 对 应 点 以 求 得 图 像 间 的 变换 关系 。 而 正如 前 面 所 述 ， 
航拍 图 像 的 特殊 性 使 得 图 像 的 位 置 坐标 不 准确 ， 有 时 还 需要 从 航拍 视频 中 抽取 
图 像 进行 拼接 ， 这 就 需要 一 种 更 为 稳健 高 效 的 拼接 方案 。 


5.3.1 图 像 拼接 技术 的 研究 现状 


FLZE 1992 年 ， 英 国 剑桥 大 学 的 Lisa Gottesfeld Brown 在 文献 中 就 总 结 了 图 像 
配 准 的 主要 理论 及 图 像 拼 接 技术 在 各 个 领域 的 应 用 ， 当 时 他 的 讨论 主要 还 是 着 
眼 于 医学 图 像 处 理 、 遥 感 图 像 处 理 等 传统 应 用 领域 。 时 隔 20 年 ， 图 像 拼 接 技术 
有 了 飞跃 发 展 ， 目 前 在 大 面积 场景 观测 、 虚 拟 现实 、 视 频 压 缩 、 视 频 检索 以 及 
高 分 辩 率 图 像 的 获取 方面 也 有 了 广泛 应 用 。 

l. 大 面积 场景 观测 及 视频 监控 系统 

图 像 拼 接 技术 可 以 用 于 场景 观测 ， 通 过 将 卫星 图 片 或 航空 照片 或 者 水 下 摄 
像 图 片 拼接 成 大 范围 的 场景 图 片 来 实现 对 某 一 地 区 某 一 场景 的 整体 勘察 观测 ， 
比如 高 大 建筑 物 高 分 状 率 全 景 图 像 的 获取 、 水 下 考古 、 海 底 探测 以 及 遥感 观测 
等 。 视 频 图 像 序 列 构造 全 景 视图 技术 还 可 以 用 于 现场 操作 员 和 指挥 专家 之 间 的 
远程 协作 系统 和 远程 遥控 系统 ， 现 场 操 作 员 通过 头盔 摄像 机 将 现场 拍摄 的 视频 
图 像 通过 无 线 通 信 的 方式 传递 给 在 远程 的 指挥 专家 ， 远 程 指挥 专家 在 收 到 现场 
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拍摄 的 视频 图 像 后 构建 出 现场 的 全 景 图 像 ， 然 后 根据 现场 情况 提出 建议 并 通知 
现场 操作 员 进 行 相 关 的 操作 。 

2. 虚拟 现实 场景 的 构建 

虚拟 现实 技术 是 利用 计算 机 构建 一 个 逼真 的 虚拟 环境 ， 即 以 仿真 的 方式 给 
人 们 创造 一 个 反映 实体 对 象 变 化 及 其 相互 作用 的 三 维 世 界 ， 使 得 人 们 能 够 通过 
使 用 专用 设备 ， 就 能 像 在 自然 环境 中 一 样 对 虚拟 环境 中 的 实体 进行 观察 与 控制 。 
在 20 世纪 90 年 代 ， 由 于 传统 的 基于 图 形 绘 制 (CBR) 的 虚拟 现实 技术 存在 着 
明显 的 缺点 ， 无 法 完全 适应 实际 需要 ， 人 们 提出 一 种 基于 图 像 绘 制 (BR) 的 
虚拟 现实 技术 ， 通 过 许多 相关 的 静止 的 图 像 进行 连续 的 插值 而 实现 场景 的 交 
互 式 浏览 ， 这 样 大 大 降低 了 数据 量 ， 从 而 方便 了 图 像 数 据 的 传输 和 保存 。 虚 
拟 现实 技术 所 需要 的 图 像 依赖 于 图 像 拼接 技术 ， 所 以 图 像 拼 接 技术 有 重要 的 
研究 价值 。 

3. 视频 压缩 

图 像 拼 接 技术 的 另外 一 个 重要 应 用 是 视频 压缩 。 目 前 MPEG-4 编码 标准 针 
对 视频 中 背景 对 象 的 特点 提出 了 Sprite 编码 方式 。 利 用 图 像 拼接 技术 将 整个 视频 
图 像 序列 的 背景 内 容 拼接 成 一 幅 大 的 完整 的 背景 全 景 图 像 ， 该 背景 在 每 一 帧 中 
出 现 过 的 像素 点 ， 在 这 幅 大 的 背景 全 景 图 中 都 能 找到 对 应 的 点 ， 这 样 的 图 像 就 
叫做 Sprite 图 像 。 由 于 Sprite 图 像 自 身 是 不 变 的 ， 因 此 只 需 传 输 一 次 ， 然 后 根据 
摄像 机 的 运动 参数 在 接收 端 重建 背景 ， 这 样 可 以 大 大 减少 传输 的 数据 量 。 这 种 
编码 方式 可 以 很 大 程度 上 提高 视频 压缩 效率 。 

4. 视频 检索 

视频 流 帧 间 存 在 大 量 宛 余 信 息 ， 利 用 图 像 拼 接 技术 去 除 元 余 ， 将 分 散在 各 
个 视频 帧 中 的 信息 集中 起 来 表示 成 整体 的 场景 ， 这 种 紧密 重组 提供 了 对 内 容 的 
非 线 性 浏览 和 高 效 的 索引 ， 可 以 有 效 地 对 感 兴 趣 的 信息 进行 直接 快速 存 取 、 编 
辑 注 释 等 操作 。 

从 具体 算法 角度 来 讲 ， 国 际 上 在 1996 年 由 Richard Szeliski 提出 了 基于 运动 
的 全 景 图 像 拼接 :该 算法 是 图 像 拼 接 领域 的 一 个 里 程 碑 式 算法 。 它 是 采用 了 
Levenberg- Marquardt 最 优化 算法 使 得 两 幅 图 像 的 亮度 差 最 小 ， 进 而 求 出 图 像 间 的 
变换 关系 ， 此 方法 效果 比较 理想 ， 还 可 以 处 理 平 移 、 旋 转 、 仿 射 等 多 种 图 像 变 
换 。 而 Richard Szeliski 也 成 为 了 图 像 拼 接 领域 的 莫 基 人 ， 这 套 理论 已 经 成 为 了 一 
个 经 典 理论 体系 ， 现 在 许多 人 依然 在 这 套 理 论 基础 上 做 进一步 研究 。2000 年 ， 
Shmuel Peleg, Benny Rousso 等 人 做 了 进一步 的 改进 ， 提 出 了 一 种 自 适 应 的 图 像 
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拼接 算法 ， 它 是 依据 摄像 机 的 不 同 运动 方式 ， 自 动 选择 合适 的 拼接 模型 。 这 一 
研究 成 果 推 动 了 图 像 拼 接 技 术 的 发 展 ， 由 此 ， 拼 接 的 自 适应 性 成 为 图 像 拼 接 领域 
研究 的 热点 。 在 2003 年 ICCV 大 会 上 ，M. Brown 发 表 了 一 篇 名 为 《Recognising 
Panoramas) 的 文章 ,文中 使 用 了 基于 尺度 不 变 特征 的 匹配 算法 进行 图 像 拼 接 ， 
并 采用 多 分 辩 率 的 思想 进行 图 像 融合 ， 将 低频 信息 与 高 频 信息 采用 不 同 的 方式 
进行 融合 ， 既 保证 了 细节 信息 ， 也 保证 了 背景 信息 ， 该 算法 的 自 适应 性 好 ， 并 
且 效 果 理 想 。 因 此 M. Brown 提出 的 理论 大 大 地 推动 了 图 像 拼 接 技术 的 发 展 ， 也 
将 全 景 图 拼接 技术 研究 推 向 高 潮 。 

国内 关于 图 像 拼 接 技术 的 研究 也 发 展 较 快 。1997 年 ， 浙 江 大 学 CAD&CG H 
家 重点 实验 室 研究 并 提出 一 种 自动 拼接 算法 ,该 算法 是 基于 模板 匹配 的 思想 进 
行 搜索 ， 确 定 最 佳 匹配 方式 。1998 年 ，Paul Bao 运用 小 波 变 换 的 优良 性 质 提出 
一 种 图 像 拼接 算法 ， 该 算法 结果 精度 高 ， 拼 接 效果 好 ， 但 是 小 波 变换 同 伟 里 叶 
变换 一 样 存在 效率 低 的 缺点 ， 需 要 进一步 改进 。2001 年 ， 清 华 大 学 的 研究 人 员 
提出 了 一 种 新 的 图 像 拼 接 算法 ， 研 究 算法 效率 与 精确 度 的 关系 ， 将 摄像 机 固定 
在 特殊 的 三 脚 架 上 ， 使 其 绕 垂直 轴 旋 转 拍摄 ， 最 终 取 得 了 不 错 的 拼接 效果 。 同 
年 ， 华 中 科技 大 学 的 研究 人 员 通 过 研究 图 像 变换 关系 模型 ， 提 出 了 基于 特征 点 
的 改进 拼接 算法 ， 它 是 首先 运用 相关 法 提取 特征 点 ， 再 计算 变换 模型 生成 全 景 
图 的 算法 。2002 年 ， 杜 威 等 人 对 动态 全 景 图 做 了 相应 研究 ， 提 出 了 一 种 能 够 处 
理 动态 场景 的 全 景 图 表示 方法 ， 把 视频 和 全 景 图 结合 起 来 ， 生 成 动态 全 景 图 。 
在 国内 比较 优秀 的 拼接 算法 是 在 2004 年 由 赵 向 阳 、 杜 立民 提出 的 一 种 基于 特征 
点 匹配 的 拼接 算法 ， 它 首次 将 角 点 匹配 与 变换 参数 鲁 棒 估 计 引 入 图 像 拼 接 ， 虽 
然 说 大 部 分 都 是 国外 经 典 算法 ， 但 是 该 论文 的 主要 贡献 是 将 这 些 算法 有 机 地 组 
合 起 来 ， 并 取得 理想 效果 。 在 此 基础 上 ，2008 年 ， 马 丽 涛 等 提出 一 种 基于 条 件 
数 的 配 准 算法 ， 其 主要 思想 是 : 在 角 点 特征 的 基础 上 ， 研 究 分 析 噪 声 对 图 像 之 
间 的 变换 关系 的 影响 程度 ， 然 后 筛选 出 具有 稳定 性 的 角 点 ， 提 高 了 匹配 的 准 
确 度 。 


5.3.2 多 分 辨 率 下 的 图 像 配 准 

图 像 配 准 也 称 图 像 对 齐 ， 是 对 从 不 同 传 感 絮 或 不 同时 间或 不 同 角 度 所 获取 
的 两 幅 或 多 幅 图 像 进 行 最 佳 匹配 的 人 处理 过 程 。 而 图 像 配 准 的 本 质 是 寻找 一 种 图 
像 对 之 间 的 变换 关系 ， 在 这 种 变换 关系 下 ， 两 幅 图 像 之 间 可 以 建立 像素 点 之 间 
的 对 应 关系 。 经 过 多 年 发 展 ， 人 们 提出 了 许多 种 图 像 配 准 的 方法 " ,大 体 
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可 以 分 为 三 类 。 

1. 基于 频 域 的 方法 

基于 频 域 的 方法 ， 即 相位 相关 法 。 它 是 利用 传 里 叶 变 换 将 两 幅 待 配 准 的 图 
像 变 换 到 频 域 ， 然 后 利用 它们 的 互 功率 谱 直 接 计算 图 像 的 变换 关系 ， 从 而 完成 
配 准 。 其 优点 是 算法 简单 ， 效 果 理 想 ， 图 像 存 在 的 平移 、 旋 转 、 仿 射 等 变换 关 
系 会 在 傅 里 叶 变换 域 上 有 相应 的 体现 ， 所 以 该 类 方法 具有 一 定 的 鲁 棒 性 。 拼 接 
的 前 提 条 件 是 竺 拼接 图 像 之 间 重 码 区 域 比 例 大 ， 一 般 要 求 超过 50% ， 这 使 得 其 
在 实际 运用 受到 较 大 限制 。 

2. 基于 区 域 的 方法 

基于 区 域 的 方法 ， 即 灰 度 相关 法 。 它 是 计算 图 像 之 间 重 个 区 域 对 应 灰 度 的 
统计 信息 ， 然 后 根据 特定 的 相似 度量 为 配 准 准则 。 该 类 方法 实现 简单 ， 但 是 应 
用 范围 非常 狭窄 ， 不 能 用 于 非 线 性 变换 ， 而 旦 运算 量 大 。 

3. 基于 特征 的 方法 

提取 图 像 的 局 部 特征 信息 ， 运 用 特定 的 相似 度量 实现 配 准 。 由 于 图 像 特 征 
种 类 非常 多 ， 有 特征 点 、 边 缘 、 轮 廊 、 闭 合 区 域 、 统 计 特 征 等 ， 相 对 于 其 他 方 
法 ， 基 于 特征 的 方法 运算 速度 较 快 ， 能够 容忍 较 大 的 图 像 差异 ， 获 得 的 配 准 结 
果 比 较 稳定 ,已 经 成 为 当前 主流 的 图 像 配 准 方法 。 

当前 已 有 的 基于 特征 的 图 像 配 准 方法 普遍 存在 一 个 问题 ,它们 提取 的 特征 
稳定 性 较 差 .通常 不 具备 对 仿 射 或 透视 投影 变换 的 不 变性 ， 难 以 适用 于 成 像 情 
况 相对 复杂 的 航拍 图 像 。 近 年 来 ， 在 工程 应 用 中 发 现 ， 局 部 特征 不 仅 对 图 像 尺 
度 、 平 移 、 旋 转变 换 具 有 不 变性 ， 而 且 对 光照 变化 以 及 复杂 的 投影 变换 也 具有 
部 分 不 变性 ， 比 较 适合 用 于 航拍 图 像 序列 的 处 理 ， 在 图 像 场景 较 大 、 天 气 和 飞 
行 器 姿态 的 影响 普遍 存在 的 情况 下 ， 可 以 实现 准确 、 稳 健 的 航拍 图 像 配 准 。 

许多 国内 外 文献 ， 如 参考 文献 [143, 144, 146] 都 曾 指出 ， 在 复杂 内 容 的 
图 像 中 提取 的 特征 点 非常 多 ， 过 多 的 特征 点 不 仅 会 加 重 计算 负担 ， 影 响 效率 ， 
而 且 会 对 特征 匹配 造成 干扰 ， 不 利于 航拍 图 像 序列 的 准 实时 拼接 。 本 书 的 拼接 
方法 只 需 利用 少量 (3 个 以 上 ) 特征 点 即 可 完成 图 像 配 准 ， 这 对 特征 点 的 提取 
质量 提出 了 较 高 要 求 ， 而 多 分 辨 率 分 析 就 为 解决 这 个 问题 提供 了 一 条 有 效 的 
途径 。 

当 观 察 图像 时 ， 通常 看 到 的 是 相连 接 的 纹理 与 灰 度 级 相似 的 区 域 ， 它们 相 
结合 形成 物体 。 如 果 物 体 的 尺寸 很 小 或 对 比 度 不 高 ， 通 常 采用 较 高 的 分 辩 率 观 
察 ; 如 果 物 体 尺 寸 很 大 或 对 比 度 很 强 ， 则 只 需 较 低 的 分 辨 率 。 如 果 物 体 的 尺寸 
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有 大 有 小 ， 或 对 比 度 有 强 有 弱 的 情况 同时 存在 ， 以 若干 分 辩 率 对 它们 进行 研究 
将 具有 优势 。 这 就 是 多 分 辩 率 处 理 的 魅力 所 在 ， 而 且 这 样 由 粗糙 到 精细 的 分 析 
策略 在 模式 识别 中 可 以 发 挥 出 很 大 的 作用 。 

以 多 分 辨 率 来 解释 图 像 的 一 种 有 效 但 概念 简单 的 结构 就 是 图 像 金字 塔 *。 
图 像 金字 塔 最 初 用 于 机 器 视觉 和 图 像 压 缩 ， 一 幅 图 像 的 金字 塔 就 是 一 系列 以 金 

















字 塔 形 排列 的 分 辨 率 逐 步 降低 的 图 像 集合 。 ie 
如 图 5-5 所 示 ， 金 字 塔 的 底部 是 待 处 理 图 像 Bon 
的 高 分 辩 率 表示 ， 顶 部 是 低 分 辨 率 的 近似 。 NL. 


/ 


当 向 金字 塔 的 上 层 移动 时 ， 尺 寸 和 分 辩 率 降 e 


T N 
b 


低 。 因 为 基础 级 的 尺寸 是 2/ x27: NxN 
(J-log,N) ， 所 以 中 间 级 7 的 尺寸 是 2 x2’, 
完整 的 金字 塔 由 J +1 个 分 状 率 级 组 成 ， 由 
2/ x2! 8| 2? x2°, 但 大 部 分 金字 塔 只 有 PI 
8. Hhjsl-p,,J-2, J-1, J B 图 5-5 图 像 金字 增 的 结构 
1 反 已 入 几 .也 就 是 说 ， 通 常 限制 它们 只 使 用 己 
级 来 减少 原始 图 像 近似 值 的 尺寸 。 

如 图 5-6 所 示 ， 由 于 从 机 载 摄影 器 材 上 获取 的 图 像 分 辩 率 较 高 ， 本 书 通过 
建立 图 像 金字 塔 来 降低 竺 匹配 图 像 的 分 辨 率 ， 在 低 分 辨 率 的 图 像 序 列 上 提取 出 
更 具 代表 性 的 特征 点 对 ， 并 计算 出 这 些 特征 点 在 原始 图 像 中 的 位 置 从 而 进行 图 


像 变换 。 
B 计算 特征 点 
， 9 Cl 在原 图 像 的 位 轩 
A 
D' | pu————— 0e 

















7 计算 特征 点 
,| 在原 图 像 的 位 置 











图 5-6 基于 多 分 辩 率 技术 的 图 像 配 准 
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为 了 实现 图 像 序列 的 拼接 ， 就 必须 确定 有 重合 的 两 幅 相 邻 图 像 的 空间 对 应 
关系 ， 这 也 是 图 像 拼接 中 关键 的 一 步 。 为 了 确定 图 像 间 的 对 应 关系 ， 需 要 清楚 





相机 进行 图 像 采 集 时 的 运动 方式 ， 因 为 相机 不 同 的 运动 方式 会 对 场景 成 像 产生 
不 同 效果 ， 如 图 5-7 所 示 。 


名 称 相机 运动 示意 图 像 变 化 结果 图 像 变 换 
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图 5-7 相机 的 运动 方式 与 成 像 结 果 之 间 的 关系 





一 旦 确定 了 图 像 间 的 关系 模型 ， 则 图 像 之 间 的 配 准 问 题 就 转化 成 确定 该 模 
型 的 参数 问题 。 目 前 常用 的 关系 模型 有 刚性 变换 (Rigid Transform) 模型 、 仿 射 
变换 (Affine Transform) 模型 、 投 影 变 换 (Projective Transform) 模型 以 及 非 线 
性 变换 (Nonlinear Transformation) 模型 等 。 

1) 刚性 变换 : 如 果 一 幅 图 像 中 的 两 点 间 的 距离 经 变换 到 另 一 幅 图 像 中 后 仍 
然 保持 不 变 ， 则 这 种 变换 称 为 刚性 变换 。 刚 性 变换 只 局 限于 平移 、 旋 转 和 反 转 
(镜像 ) ， 不 会 扭曲 物体 的 原 有 形状 ， 其 变换 矩阵 具有 3 个 自由 度 。 

2) 仿 射 变换 : 如 果 一 幅 图 像 上 的 直线 经 过 变换 后 映射 到 另 一 幅 图 像 上 仍然 
为 直线 ， 并 且 保 持平 行 关系 ， 则 这 种 变换 称 为 仿 射 变换 。 仿 射 变换 描述 摄像 机 
的 平移 、 旋 转 、 缩 放 运 动 。 其 变换 矩阵 具有 6 个 自由 度 。 

3) 投影 变换 : 如 果 一 幅 图 像 上 的 直线 经 过 变换 后 映射 到 另 一 幅 图 像 上 仍然 
为 直线 ， 但 平行 关系 基本 不 保持 ， 则 这 种 变换 称 为 投影 变换 。 投 影 变 换 具 有 更 
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一 般 的 形式 ， 可 以 描述 摄像 机 的 平移 、 水 平 扫 动 、 垂 直 扫 动 、 旋 转 、 镜 头 缩放 
等 运动 ， 其 变换 矩阵 具有 8 个 自由 度 。 它 适用 于 景物 平面 相对 于 像 平 面 有 一 定 
倾斜 的 情况 ， 刚 性 变换 模型 和 仿 射 变 换 模型 可 以 看 做 是 投影 变换 模型 的 特例 。 
4) 非 线 性 变换 ， 非 线性 变换 ， 也 称 为 弯曲 变换 。 经 过 非 线 性 变换 ， 一 幅 图 
像 上 的 直线 映射 到 另 一 幅 图 像 上 不 一 定 是 直线 ， 可 能 是 曲线 。 多 项 式 变换 是 典 
型 的 非 线性 变换 ， 如 二 次 、 三 次 函数 及 样 条 函数 ， 有 时 也 使 用 指数 枉 数 。 

理论 上 讲 ， 在 图 像 变换 的 时 候 考 虑 的 参数 越 多 ， 得 到 的 结果 越 精确 。 但 在 
实际 应 用 中 ， 由 于 飞行 器 飞行 轨道 的 起 伏 、 地 面 物体 高 度 的 变化 等 因素 ， 参 数 
过 多 的 变换 矩阵 反而 起 到 的 放大 误差 的 效果 ， 并 且 需 要 至 少 7 个 特征 点 对 才 可 
以 进行 配 准 。 

通过 对 实际 数据 的 研究 ， 我 们 发 现 航 空 招 摄 平台 通常 距离 地 面 较 远 ， 可 以 
将 一 定 范 围 内 的 大 地 场景 近似 看 成 一 个 平面 区 域 ， 这 样 一 来 就 能 够 把 一 定 长 度 
的 航拍 图 像 序列 变换 到 同一 个 成 像 平 面 完 成 图 像 配 准 。 在 各 种 图 像 变 换 模型 中 ， 
虽然 投影 变换 的 描述 能 力 更 强 ， 但 依据 奥 卡 姆 剃刀 (Occam's Razor) 定律 ?， 本 
书 针对 航拍 图 像 的 特点 采用 了 仿 射 变换 模型 。 该 模型 可 以 描述 图 像 的 旋转 、 平 
移 和 缩放 等 运动 ,利用 3 个 以 上 特征 点 即 可 完成 图 像 拼 接 ， 不仅 极 大 简化 了 计 
算 ， 拼 接 的 最 终 效果 也 能 够 达到 相应 要 求 。 

设 成 像 平面 上 某 一 点 P, 的 坐标 为 (x;，y,)， 其 三 维 齐 次 坐标 为 (x,，y,，1 )。 
设 一 个 观测 点 在 两 个 相 邻 帧 图 像 上 所 成 的 像 点 分 别 为 已 和 已 ， 则 这 两 点 的 齐 次 
坐标 之 间 满 足 如 下 关系 : 









































P, =TP, (5-5) 

式 中 ,了 为 8 参数 投影 变换 和 矩阵。 实验 证明 ， 由 于 航拍 图 像 序列 中 相 邻 两 帧 图 像 

间 视 差 较 小 ， 可 以 用 式 (5-6) 给 出 的 仿 射 变换 矩阵 来 近似 表达 式 (5-5) 中 的 

T， 这 样 也 有 效 地 简化 了 计算 。 

T-|m, m, mę (5-5) 
0 0 1 

根据 线性 方程 相关 理论 ， 至 少 需要 3 个 特征 点 对 才能 对 这 个 6 参数 的 仿 射 变 

换 矩 阵 求解 。 但 实际 应 用 中 ， 我 们 提取 的 特征 点 对 数量 通常 大 于 3， 这 时 可 以 利 























o ”该 定律 是 14 世纪 逻辑 学 家 、 圣 方 济 各 会 修士 奥 卡 姆 的 威廉 提出 的 ， 其 原理 的 一 种 表述 为 “如 无 
JE, DSBS” 
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用 最 小 二 乘法 估计 仿 射 变换 矩阵 了 ， 相 应 的 误差 为 














2. |P, = TP. Ih 


MSE = (5-7) 


判断 图 像 配 准 的 结果 优 劣 的 标准 与 其 应 用 的 领域 有 关系 。 比 如 ， 在 军事 制 
FAR, 图像 中 目标 定位 的 精确 度 与 算法 的 速度 是 最 重要 的 ;在 医学 领域 ， 获 
取 的 图 像 简单 而 正规 ， 就 可 以 采用 比较 简单 的 模板 匹配 ; 在 卫星 遥感 方面 ， 可 
以 采用 已 知 位 置 的 标定 物 来 定位 配 准 。 可 见 ， 图 像 配 准 本 身 就 具有 多 样 性 和 特 
殊 性 ， 在 这 儿 十 年 的 技术 发 展 过 程 中 ， 还 存在 许多 问题 。 图 像 配 准 的 精度 和 效 
率 上 很 难 找到 一 个 通用 的 平衡 点 ， 其 针对 性 较 强 ， 自 适应 性 不 足 ， 限 制 了 图 像 
拼接 的 实际 应 用 范围 。 


5.3.3 渐 入 渐 出 的 图 像 融 合算 法 


由 于 进行 航拍 图 像 序列 采集 时 拍摄 条 件 的 变化 以 及 配 准 误差 等 因素 的 影响 ， 
县 加 后 的 图 像 将 不 可 避免 地 存在 如 光照 变化 、 色 彩 差 异 、 几 何 形变 等 诸多 问题 ， 
从 而 在 拼接 结果 中 引入 一 些 视觉 上 不 连续 的 条 带 。 如 何 消除 这 种 拼接 痕迹 ， 使 
得 图 像 过 渡 更 加 自然 ， 这 正 是 图 像 融 合 技术 着 力 解 决 的 难题 。 

现 有 的 图 像 融合 技术 通常 在 像素 级 、 特 征 级 和 决策 级 三 个 层次 进行 ， 如 图 
5-8 所 示 。 其 中 ,像素 级 图 像 融 合 是 在 基础 层面 上 进行 的 信息 融合 ， 也 是 目前 在 
实际 中 应 用 最 广泛 的 图 像 融 合 方式 ， 其 思想 是 直接 进行 图 像 信息 的 综合 而 得 到 
融合 图 像 。 图 像 拼 接 中 的 融合 主要 针对 两 幅 图 像 重 闪 区 域 的 平滑 过 渡 ， 一 般 不 
需要 进行 高 层次 的 数据 融合 ， 只 是 在 像素 级 上 进行 处 理 就 可 以 了 。 

目前 常用 的 图 像 融 合 方法 主要 有 直接 平均 融合 、 加 权 平 均 融 合 和 多 分 辨 率 
融合 等 。 直 接 平均 融合 是 将 配 准 后 图 像 之 间 的 重合 区 域 对 应 像素 点 的 灰 度 值 直 
接 进 行 合 加 再 求 平均 ， 相 当 于 对 图 像 进 行 了 低 通 滤波 。 该 方法 简单 但 是 通用 性 
较 差 ， 最 终 图 像 中 往往 有 较为 明显 的 拼接 痕迹 ， 如 果 场 景 中 存在 运动 目标 还 会 
产生 “ 鬼 影 (ghostrlike)” 现 象 ; 多 分 辨 率 方法 采用 图 像 金字 塔 结构 ， 将 原始 图 
像 分 解 成 不 同 频率 上 的 一 组 图 像 ， 在 每 个 分 解 的 频率 上 ， 将 图 像 重 侠 边界 附近 
加 权 平 均 ， 最 后 把 所 有 频率 上 的 合成 图 像 汇 总 成 一 幅 。 在 每 一 个 频率 带 内 ， 加 
权 函 数 的 系数 以 及 颜色 融合 区 域 的 大 小 ， 是 由 两 幅 图 像 的 图 像 特征 在 该 频率 带 
内 的 差异 决定 的 ， 这样 可 以 使 得 具有 不 同 强 度 的 图 像 平滑 的 过 渡 。 虽 然 该 方法 
拼接 质量 很 高 ， 但 是 计算 过 于 复杂 ， 不 适宜 大 场景 的 准 实时 拼接 ; 本 书 采用 了 
加 权 平 均 方 法 中 的 渐 和 人 渐 出 融合 算法 ， 在 保证 航拍 图 像 序列 准 实时 拼接 的 同时 ， 
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图 5-8 图 像 融合 的 层次 


渐 和 人 渐 出 融合 算法 是 由 Szeliski 7" 提出 的 ， 设 所 和 万 是 两 幅 待 拼接 的 图 像 ， 





将 它们 按照 线性 加 权 的 方法 进行 融合 ， 融 合 后 的 图 像 像素 /可 表示 为 
fi, y) (x, y) Efi 
fiy) 2 Mfitx, y) tdplx,y) | (x, DENAR) (5-8) 
fh, y) (x, y) €f, 
式 中 ，d Ald, RRS RUE DORUM IE AME, FFA d, +d, 21, 0xd,, 
加 大 1。 假 设 当前 像素 的 横 坐 标 为 x ， 重 县 区 域 左右 边界 的 横 坐 标 分 别 为 ww 和 >x,， 








WARES KEP d, h1 BEBO, d, HO 渐变 至 1。 


_%, 一 Mi 





d, (5-9) 


在 对 单程 航拍 的 图 像 序列 进 行 拼 接 时 ， 采 用 上 述 方法 ， 仅 针对 相 邻 两 幅 图 
像 的 x 方向 上 作 了 平滑 过 渡 ， 基 本 可 以 满足 需求 。 如 果 图 像 序列 是 盘旋 拍摄 或 
者 沿 “ 几 ”字形 路 线 拍摄 的 情况 下 ， 就 需要 进一步 考虑 到 多 幅 图 像 、 各 个 方向 
上 的 平滑 5 。 本 书 在 融合 算法 中 为 图 像 的 每 个 像素 分 配 权 重 ， 这 个 权重 与 像素 
到 图 像 边缘 的 距离 成 正比 : 

Y wld, DL, y) 


C(x, y) = 一 (5-10) 
> wda, y» 


k 


AP, w 是 单调 函数 ， 一 般 取 w(x)=x, U(x, y) ER k WERE (x, y) 点 的 
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灰 度 值 。d(x, y) 的 计算 可 以 简单 地 取 (x, y) 点 到 图 像 四 条 边 的 最 小 距离 。 














5.4 基于 局 部 特征 和 原型 匹配 的 图 像 检 索 


现 有 的 图 像 检 索 方式 主要 分 为 两 种 : 基于 文本 的 图 像 检 索 (Text-Based Im- 
age Retrieval, TBIR) 和 基于 内 容 的 图 像 检 索 (Content-Based Image Retrieval, 
CBIR) 。 前 者 自 20 世纪 70 年 代 发 展 至 今 取 得 了 一 定 的 成 果 " .292 ， 但 是 三 个 
突出 的 局 限 性 使 得 它 很 难 适 应 现实 的 要 求 : 海量 数据 的 标注 耗 时 费力 ; 主观 性 
强 ， 不 同 的 理解 导致 对 同一 图 像 的 标注 差异 很 大 ; 图 像 丰富 的 内 容 很 难 用 少量 
文字 描述 清楚 。 

而 基于 内 容 的 图 像 检 索 技术 则 通过 图 像 的 颜色 、 纹 理 、 形 状 等 视觉 特征 实 
现 了 “以 图 找 图 ”的 查询 模式 ， 其 处 理 过 程 融 合 了 图 像 分 析 、 模 式 识别 以 及 人 
机 交互 等 多 种 技术 ， 从 20 世纪 90 年 代 开 始 ， 逐 渐 成 为 了 图 像 检 索 方向 的 研究 热 
点 0829。 随 着 在 生产 生活 中 的 大 量 应 用 ， 基 于 内 容 的 图 像 检索 方法 也 显现 出 
了 一 些 不 足 ， 一 方面 是 目前 常用 的 图 像 特 征 大 都 是 整体 特征 ， 如 不 变 矩 BO, 
欧 拉 向 量 、 颜 色 直 方 图 等 ， 不 能 准确 地 表达 场景 信息 和 物体 的 本 质 属 性 ; 另 一 
方面 ， 由 于 图 像 理 解 技术 的 局 限 和 用 户 界 面 的 限制 ， 检 索 系 统 给 出 的 初始 结 
往往 不 能 很 好 地 满足 用 户 的 信息 需求 。 

针对 以 上 两 点 问题 ， 本 书 对 局 部 特征 提取 技术 和 相关 反馈 技术 进行 了 深入 
的 研究 分 析 ， 提 出 了 一 种 基于 局 部 特征 的 图 像 检 索 方 法 。 实 验 结果 表明 ， 该 方 
法 效果 良好 、 性 能 稳定 ， 有 很 大 的 发 展 潜力 和 广阔 的 应 用 前 景 。 


5.4.1 CBIR 的 研究 现状 和 发 展 趋势 


国内 外 的 研究 机 构 已 经 投入 大 量 人 力 物 力 开 展 了 基于 内 容 的 图 像 检索 方面 
的 广泛 研究 ， 并 且 研 制 出 了 一 些 商 业 系 统 和 实验 系统 。 和 常见 的 基于 内 容 的 图 像 
检索 系统 包括 由 IBM T. J. Watson 研究 中 心 开 发 的 颇具 影响 力 的 QBIC 系统 、 由 
哥伦比亚 大 学 研究 开发 的 VisualSEEK 和 WebSEEK 系统 、 由 美国 Virage 公司 开 
发 的 Virage 系统 、 由 美国 MIT 媒体 实验 室 开发 的 Photobook 系统 、 由 美国 斯 坦 福 
大 学 人 研制 的 SIMPLIeity 系统 等 ， 近 年 来 国内 也 有 一 些 大 专 院 校 研究 开发 了 基于 内 
容 的 图 像 检索 系统 ， 如 浙江 大 学 开发 了 基于 图 像 颜色 的 检索 系统 PhotoNavigator， 
并 将 基于 颜色 的 图 像 检 索 技术 较为 成 功 地 应 用 于 敦煌 壁画 数据 库 的 研究 和 开发 ， 
复旦 大 学 研制 出 iFind 系统 等 。 
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QBIC 系统 ?是 由 IBM Almaden 研究 中 心 开 发 的 第 一 个 商品 化 的 基于 内 容 图 
像 检 索 系 统 ， 它 的 系统 框架 、 结 构 和 技术 对 后 来 的 图 像 检索 系统 有 着 深远 的 影 
响 。QBIC 系统 支持 基于 例子 图 像 、 手 绘 略图 、 选 择 的 颜色 、 纹 理 等 的 查询 ， 不 
仅 支 持 图 像 检索 ， 还 支持 视频 、 文 本 和 语音 多 种 形式 的 信息 检索 。QBIC 是 少数 
几 个 考虑 高 维特 征 索引 的 系统 。QBIC 系统 使 用 的 颜色 特征 是 颜色 直方 图 。 纹 理 
特征 采用 粗糙 度 、 对 比 度 和 方向 性 描述 。 形 状 特征 包括 面积 、 圆 形 度 、 离 心率 、 
主轴 方向 和 不 变 抢 。 颜 色 、 纹 理 和 形状 均 采 用 加 权 的 欧式 距离 比较 。 

Virage° AE FH Virage 公司 开发 的 基于 内 容 的 图 像 搜 索引 擎 。 与 QBIC 相似 ， 
它 支 持 基于 颜色 、 颜 色 布局 、 纹 理 及 结构 的 查询 ， 但 比 QBIC 更 进一步 的 是 它 还 
支持 上 述 四 种 特征 的 组 合 查询 ， 用 户 可 以 根据 自己 的 爱好 调整 这 四 种 特征 的 权 
重 。Virage 技术 的 核心 是 Virage Engine 以 及 在 图 像 对 象 层 上 的 操作 。Virage En- 
gine 主要 有 图 像 分 析 、 图 像 比较 和 图 像 管理 三 方面 的 功能 。 它 将 查询 引擎 作为 
一 个 插件 ， 既 可 以 应 用 到 通用 的 图 像 查询 中 ， 也 可 对 其 进行 扩展 并 应 用 到 特定 
的 领域 。 

Photobook 是 MIT 多 媒体 实验 室 开发 的 用 于 浏览 和 搜索 图 像 的 一 套 交 互 式 工 
具 。Photobook 包括 三 部 分 ， 形 状 提取 部 分 、 纹 理 提取 部 分 及 面部 特征 提取 部 分 。 
它 的 人 脸 识别 检索 技术 已 被 用 于 美国 的 警察 机 关 。 由 于 没有 哪 一 种 最 好 的 特征 
能 够 单独 地 描述 一 幅 图 像 ， 所 以 在 Photobook 的 最 新 版 本 FourEyes "P, Picard 等 
人 提出 了 把 用 户 加 入 到 图 像 注释 和 检索 过 程 中 的 思想 。 同 时 由 于 人 的 感知 是 主 
观 的 ， 他 们 又 提出 了 把 “模型 集合 ”和 人 的 因素 相 结 合 。 实 验 结果 表明 ， 这 种 
方法 对 于 交互 式 图 像 注释 来 说 非常 有 效 。 

VisualSEEK9 是 基于 视觉 特征 的 检索 工具 ，WebSEEK2 是 一 种 面向 WWW 的 
文本 或 图 像 搜索 引擎 。 这 两 个 检索 系统 都 是 由 哥伦比亚 大 学 开发 的 。 它 们 的 主 
要 特点 是 采用 了 图 像 区 域 之 间 空 间 关 系 和 从 压缩 域 中 提取 的 视觉 特征 。 系 统 所 
采用 的 视觉 特征 是 利用 颜色 集 和 基于 小 波 变 换 的 纹理 特征 。VisualSEEK 同时 支 
持 基 于 视觉 特征 的 查询 和 基于 空间 关系 的 查询 。WebSEEK 包括 三 个 主要 模块 ; 
图 像 /视频 采集 模块 ， 主 题 分 类 和 索引 模块 ， 查 找 、 浏 览 和 检索 模块 。 相 对 于 其 
他 的 多 媒体 检索 系统 ，VisualSEEK 的 优点 在 于 : 高 效 的 Web 图 像 信 息 检索 ， 采 
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用 了 先进 的 特征 抽取 技术 ， 用 户 界 面 强 大 ， 操 作 简单 ， 查 询 途 径 丰 富 ， 输 出 画 
面 生动 且 支 持 用 户 直接 下 载 信息 。 而 WebSEEK 本 身 就 是 一 个 独立 的 万 维 网 可 视 
化 编程 工具 ， 已 经 对 650000 幅 图 像 和 10000 个 影像 片段 进行 了 编目 ， 用 户 可 以 
使 用 目录 浏览 和 特征 检索 方式 进行 图 像 检 索 。 

基于 内 容 的 图 像 检索 从 理论 上 可 以 分 为 三 个 层次 : 特征 语义 ， 即 利用 图 像 
的 颜色 、 纹 理 和 形状 等 低层 特征 及 其 组 合 进行 检索 ; 对 象 语义 和 空间 关系 语义 ， 
即 需要 利用 导出 的 特征 进行 一 定 的 逻辑 推理 ， 识 别 出 图 像 中 含有 的 目标 ;场景 
语义 ， 行 为 语义 和 情感 语义 ， 涉 及 网 像 的 抽象 属性 ， 需 要 对 所 描述 的 目标 和 场 
景 进行 高 层 语义 推理 。 可 以 看 出 ， 当 前 大 多 数 成 型 的 图 像 检索 系统 都 停留 在 第 
一 个 层次 ， 如 图 5-9 所 示 ， 预 先 按 照 某 种 方法 提取 出 查询 图 像 以 及 图 像 库 中 待 
检索 图 像 的 低层 特征 〈 如 颜色 、 纹 理 、 形 状 ) ， 待 查询 图 像 的 低层 特征 形成 一 个 
特征 库 ， 然 后 把 查询 图 像 的 特征 与 特征 库 中 的 特征 进行 匹配 ， 以 寻找 相似 的 
ERU 
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图 像 库 | 一 特征 抽取 一 | 8 7 WER 
Am1-Am2-Am3 t Am 
图 5-9 图 像 检索 系统 的 结构 流程 (来 源 : 杨 红 菊 ， 2009 4 ) 


针对 以 上 三 个 层面 ， 基 于 内 容 的 图 像 检 索 技 术 人 研究 热点 主要 可 以 分 为 五 个 
方面 : 

l. 基于 整体 特征 的 图 像 检索 

主要 研究 如 何 选择 合适 的 图 像 整体 特征 描述 图 像 内 容 和 采用 什么 样 的 图 像 
度量 方法 进行 图 像 匹 配 。 由 于 只 是 用 图 像 的 某 些 整体 特征 ， 不 能 完整 地 描述 图 
像 的 内 容 ， 因 此 图 像 检 索 的 准确 率 往往 不 高 。 

2. 基于 区 域 的 图 像 检索 

主要 通过 图 像 分 割 技术 将 图 像 进 行 划 分 ， 然 后 针对 每 个 区 域 使 用 局 部 特征 
进行 描述 ,综合 区 域 的 局 部 特征 从 而 得 到 图 像 的 总 体 特 征 ， 最 后 使 用 合适 的 相 
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似 性 度量 标准 来 检索 图 像 。 

3. 基于 图 像 语义 的 研究 

相对 于 图 像 的 颜色 、 纹 理 及 形状 等 低层 特征 而 言 ， 语 义 特征 属 高 层 特征 ， 
有 具有 主观 抽象 的 特点 ， 是 研究 的 最 终 目标 。 目 前 基于 语义 特征 的 图 像 检 索 技 术 
的 主要 研究 内 容 是 : 如 何 从 多 种 渠道 获取 图 像 语 义 信息 ; 所 获取 的 语义 信息 如 
何 与 图 像 低层 特征 结合 如何 通过 相关 反馈 技术 在 图 像 之 间 传 递 语义 信息 ; 以 
及 如 何 将 图 像 低层 特征 与 图 像 的 关键 词 结合 进行 图 像 的 自动 标注 以 提高 图 像 检 
索 的 准确 率 等 。 

4. 高 维 索引 技术 的 研究 

要 想 使 CBIR 系统 得 到 实际 的 应 用 ， 那 么 对 于 大 规模 大 容量 的 图 像 数 据 库 中 
进行 检索 要 解决 的 主要 问题 就 是 高 维特 征 索引 技术 。 目 前 提取 的 特征 从 几 百 维 
到 几 千 维 ， 要 在 整个 数据 库 中 对 所 有 图 像 进 行 相似 性 度量 变 得 不 实际 。 最 新 的 
研究 模型 只 能 处 理 几 百 或 几 千 幅 图 像 ， 只 有 这 样 ， 在 顺序 扫描 处 理 这 些 图 像 时 
才 不 至 于 严重 影响 系统 的 操作 性 能 。 目 前 ， 在 这 一 研究 领域 已 取得 一 些 进 展 。 
例如 K-D 树 ，R- 树 、 变 种 R+ 树 、R* 树 、VA-File 等 , 但 探索 更 加 有 效 的 高 维 
索引 技术 仍 是 一 个 急需 解决 的 问题 。 

5. 相关 反馈 技术 的 研究 

该 技术 基于 人 机 交互 的 思想 ， 以 猜测 用 户 需 求 为 目的 ， 并 且 根 据 用 户 的 需 
求 动态 调整 系统 检索 时 所 采用 的 特征 向 量 或 参与 检索 的 不 同 特征 的 权重 系数 ， 
从 而 尽量 缩短 减 小 低层 特征 和 高 层 语 义 之 间 的 差距 ， 提 高 算法 的 检索 结果 。 相 
关 反 馈 最 先 由 Rui Yong 将 其 由 文本 检索 领域 引入 到 CBIR 领域 ， 此 技术 是 最 近 几 
^F. CBIR 研究 的 热点 。 为 了 把 用 户 模型 蔡 入 到 图 像 检索 系统 ， 最 近 几 年 在 CBIR 
领域 引入 了 相关 反馈 与 机 器 学 习 机 制 ， 将 成 熟 的 学 习 算 法 与 图 像 检 索 中 的 在 线 
学 习 过 程 (On-line Learning) 结合 起 来 以 提高 检索 准确 率 。 


5.4.2 基于 模板 匹配 的 检索 方法 


作为 一 种 知觉 模型 ， 模 板 匹配 (Template Matching) 的 原理 是 这 样 的 : 我 们 
所 遇 到 并 期 望 从 中 获得 意义 的 每 一 个 事物 、 事 件 或 其 他 刺激 ， 都 会 与 先前 已 经 
存储 的 模式 或 模板 进行 比较 。 因 此 ， 知 觉 的 过 程 包括 将 输入 信息 与 已 经 存储 的 
模板 进行 比较 ， 并 从 中 寻找 出 一 种 匹配 的 模板 '” 。 如 果 有 一 些 模型 都 与 之 匹配 
或 相近 ， 就 需要 通过 进一步 的 加 工 ， 以 区 分 出 哪 一 个 模板 是 最 为 合适 的 。 这 一 
模型 意味 着 在 我 们 的 知识 基础 中 ,已 经 存储 了 数 以 百 万 计 的 不 同 模板 一 一 每 一 
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个 可 以 辨识 的 不 同 物体 或 模式 ， 都 有 一 个 与 之 匹配 的 模板 存在 。 

本 书 结合 局 部 特征 的 特点 和 模板 匹配 的 原理 ,提出 了 一 种 图 像 检索 方法 。 
该 方法 将 从 查询 图 上 提取 出 的 每 个 局 部 特征 都 作为 单个 模板 存储 起 来 。 对 于 图 
像 库 中 的 所 有 图 像 ， 都 要 用 前 面 所 述 方 法 判断 其 每 一 个 局 部 特征 是 否 和 模板 之 
一 匹配 。 如 果 局 部 特征 和 模板 匹配 的 数量 越 多 ， 则 该 幅 图 像 和 查询 图 相似 的 程 
度 就 越 高 。 在 本 书 的 实验 中 ,使 用 特征 匹配 比例 (Feature Matching Proportion ) 
来 表示 相似 程度 ， 即 
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AF, Fp 为 特征 匹配 比例 ，Mrn 为 相 匹 配 的 局 部 特征 对 的 数量 ，Fn 为 查询 图 中 
局 部 特征 的 数量 。 

由 于 本 书 所 用 的 局 部 特征 都 能 看 作 高 维 向 量 空间 中 的 点 ， 可 以 通过 计算 两 
个 点 之 间 的 接近 程度 来 衡量 图 像 的 局 部 特征 之 间 的 相似 度 。 目 前 最 为 常用 的 相 
似 度 度 量 都 具有 很 强 的 特征 依赖 性 ， 不 同 的 特征 需要 应 用 不 同 的 度量 方法 才能 
获得 最 佳 效 果 。Mikolajczyk 等 人 1 经 过 大 量 实验 对 比 ， 发 现 对 于 SIFT 和 GLOH 
等 局 部 特征 在 图 像 检 索 中 的 应 用 来 说 ， 用 欧 氏 距离 作为 相似 度 度量 已 经 可 以 满 
足 实际 应 用 的 要 求 。 
显然 ， 模 板 匹 配 并 不 完全 适合 知觉 原理 的 实际 应 用 。 首 先 ， 这 一 模型 要 想 
成 立 的 话 ， 必 须 存储 数量 大 得 令 人 难以 置信 的 模板 ; 其 次 ， 该 模型 无 法 解释 新 
的 模板 是 如 何 创造 出 来 的 ， 又 如 何 保 持 识别 系统 与 这 些 数量 不 断 增 长 的 模板 的 
联系 ; 最 后 ， 实 践 中 往往 会 将 许多 模式 或 多 或 少 地 认为 是 同样 的 东西 ， 即 使 这 
些 模式 有 比较 明显 的 差别 。 


5.4.3 基于 原型 匹配 的 反馈 技术 


正如 上 一 小 节 所 述 ， 基 于 模板 匹配 的 检索 方法 虽然 有 很 大 的 潜力 和 研究 空 
间 , 但 其 不 足 之 处 也 是 显而易见 的 。 那 就 是 提取 的 局 部 特征 描述 得 过 于 具体 ， 
在 检索 包含 同一 个 体 的 图 像 中 效果 非常 好 ， 却 不 适 于 匹配 包含 某 一 类 物体 的 图 
像 。 比 如 ， 从 一 幅 行 人 图 像 中 得 到 了 一 些 局 部 特征 ， 分 别 描述 此 人 的 头 、 颈 、 
腰 、 腿 ， 这 些 特征 比较 适用 于 匹配 关于 该 人 的 其 他 图 像 ， 如 果 是 另外 一 个 人 的 
图 像 ， 这 些 特 征 就 不 容易 匹配 上 了 ， 更 何况 图 像 库 中 形体 不 同 、 姿 态 各 异 的 人 
了 。 而 基于 内 容 的 图 像 检索 需要 对 一 类 物体 进行 匹配 ， 比 如 检索 有 汽车 、 飞 机 、 
坦克 、 人 群 、 楼 房 的 图 像 ， 这 种 情况 下 就 需要 对 具体 的 局 部 特征 进行 组 合 优化 ， 
从 而 得 到 对 某 类 物体 的 理想 化 表征 一 一 原型 。 


(5-11) 
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原型 匹配 理论 是 这 样 描述 知觉 加 工 的 : 当 一 种 视觉 系统 收 到 一 个 新 刺激 ， 
该 系统 就 会 将 它 与 原先 存储 的 原型 进行 比较 ， 但 并 不 要 求 完全 相 匹 配 ， 事 实 上 
大 致 的 匹配 就 可 以 了 '…] 。 原 型 匹配 模型 允许 输入 信息 与 原型 之 间 存 在 差异 ， 这 
就 赋予 了 该 模型 比 模板 模型 更 多 的 灵活 性 。 如 图 5-10 所 示 ， 我 们 可 以 从 各 式 各 
样 的 关于 人 的 图 像 中 提取 到 许多 描述 人 体 各 个 部 位 的 局 部 特征 ， 然 后 对 这 些 局 
部 特征 集合 进行 聚 类 分 析 ， 得 到 这 些 局 部 特征 的 原型 特征 。 
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目标 图 像 局 部 特征 原型 
图 5-10 局 部 特征 的 原型 获取 示意 图 〈 来 源 : Leibe, 2008 4 ) 


关于 素 类 分 析 的 算法 ， 本 书 在 第 3 章 3. 5. 1 节 进 行 了 介绍 ， 由 于 图 像 检 索 所 
用 到 的 图 像 示 例 比较 少 ， 提 取 的 局 部 特征 总 数 也 不 是 很 多 。 所 以 划分 方法 中 的 
k- PHE (kk- means) 、k- 中 心 点 (k-medoids) 和 层次 方法 中 的 凝聚 聚 类 效果 上 
的 差距 并 不 十 分 明显 。 

为 了 实现 从 模板 匹配 到 原型 匹配 的 转变 ， 我们 引入 了 相关 反馈 技术 。 相 关 
反馈 技术 基于 人 机 交互 的 思想 ， 以 猜测 用 户 需 求 为 目的 ， 并且 根据 用 户 的 需求 
动态 调整 系统 检索 时 所 采用 的 特征 向 量 或 参与 检索 的 不 同 特征 的 权重 系数 ， 从 
而 尽量 减 小 底层 特征 和 高 层 语义 之 间 的 差距 ， 改 善 算法 的 检索 效果 。 

在 本 书 中 ， 通 过 模板 匹配 的 初次 检索 后 ， 由 用 户 根据 自身 的 信息 需求 挑选 
出 相关 程度 较 大 的 检索 结果 ， 系 统 根据 用 户 的 反馈 进行 学 习 ， 对 这 些 挑 选 出 的 
图 像 以 及 查询 图 的 局 部 特征 通过 上 述 算法 进行 组 合 优化 ， 把 得 到 的 “原型 ” 存 
储 起 来 ， 此 后 的 处 理 过 程 就 和 基于 模板 匹配 的 检索 方法 类 似 。 





























5.5 实验 结果 与 分 析 


1. 实验 环境 
(1) 硬件 环境 
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普通 DELL 台式 计算 机 一 台 ， 基 本 配置 为 P(R) D/3.4GHz/1. 00G/160G/ 
19in (XJ), 

(2) 软件 环境 

WindowsXP 操作 系统 ，Visual Studio C ++ 6.0 开发 平台 ，Matlab2007b，OpenCV 
函数 库 。 

Mikolajezyk 等 人 构造 的 图 像 库 ?可 以 用 于 从 不 同 角 度 对 局 部 特征 描述 子 进 
行 性 能 测试 。 该 库 中 含有 8 组 (每 组 6 dE) PPM 格式 的 图 像 ， 大 小 为 765 x 
512 到 1000 x 700 像素 不 等 ， 分 别 代表 5 种 不 同 的 图 像 变 换 : 视点 变化 (两 组 
图 像 )、 尺 度 变化 (两 组 图 像 )、 图 像 噪声 (两 组 图 像 ) JPEG 压缩 、 光 亮度 
变化 。 

本 章 图 像 拼 接 实验 所 用 到 的 数据 是 无 人 机 在 黄河 上 空 拍摄 的 凌 汛 图 像 序列 
以 及 在 太原 火车 站 上 空 拍 摄 的 图 像 序列 ， 每 由 图像 丝 存储 为 JPEG 格式 ， 大 小 分 
别 为 4727 x 2848 像素 和 3888 x 2592 像素 。 这 些 可 见 光 图 像 都 来 自 普 通 的 航拍 
CCD 相机 或 摄像 机 ， 传 感 器 设备 位 于 飞机 底部 的 一 个 近似 固定 视点 ， 相 邻 图 像 
间 有 不 小 于 16% 的 重 琶 ,拍摄 所 有 图 像 时 焦距 基本 保持 不 变 。 

Wan 从 Corel 标准 测试 图 像 库 中 挑选 出 来 的 图 像 被 广泛 应 用 于 对 图 像 检索 的 
效果 验证 (051.3 节 )。 如 图 5-11 所 示 ， 包 含 非 洲 原始 居民 、 海 浴 、 建 筑 物 、 
AZRE, TE. KA, EF, SG. il, Am 10 类 共计 1000 BARR, # 
存储 为 JPEG 格式 ， 大 小 为 256 x 384 像素 或 384 x 256 像素 。 每 一 类 的 100 幅 图 
像 被 设 定 为 识别 的 标准 结果 。 
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实验 1: 局 部 特征 在 目标 匹配 中 的 性 能 比较 

本 章 实 验 测试 的 局 部 特征 有 第 2 童 介绍 的 GLOH, SIFT, PCA-SIFT, SC 
(Shape Context), ^^ZEXE (Moment Invariants, MI) 和 导向 滤波 需 〈Steerable Fil- 
ters，SF) ， 所 用 的 衡量 性 能 的 标准 为 3.4. 2 节 所 提 到 的 查 准 率 (Precision) 、 查 
全 率 〈Recall) 。 图 像 匹配 所 用 到 的 图 像 组 在 平面 内 旋转 的 角度 范围 是 30? ~ 45°, 
视点 变化 的 范围 是 50° ~ 60"， 缩 放 变 化 的 尺度 因子 是 2 ~ 2.5， 最 终 的 实验 结 
是 取 各 个 实验 数据 的 平均 值 。 在 匹配 策略 上 ， 本 实验 采用 5.2.1 节 所 提 到 的 最 
近邻 特征 和 次 近邻 特征 的 距离 比值 ， 变 动 该 阔 值 的 上 限 上 ， 形 成 了 图 5-12 所 示 
的 曲线 图 。 
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图 5-12 局 部 特征 描述 子 的 性 能 比较 





注意 实验 中 性 能 评价 是 建立 在 对 同一 物体 或 场景 的 匹配 识别 上 的 ， 而 且 在 
具体 过 程 中 可 以 发 现 每 种 局 部 特征 都 有 一 定 的 适用 范围 ， 例 如 ，SC 描述 子 在 形 
状 特征 明显 的 目标 匹配 中 效果 很 好 ， 但 在 纹理 图 像 和 非 刚 性 目标 的 识别 中 效果 
不 佳 。 在 低 维 描述 子 中 ， 不 变 矩 和 导向 滤波 器 的 性 能 要 略 胜 一 筹 。 但 总 体 看 来 ， 
SIFT 和 GLOH 特征 的 性 能 最 为 稳定 ， 应 用 也 比较 广泛 。 

图 5-13 是 在 不 同 视点 对 同一 场景 进行 拍摄 的 两 幅 图 像 ， 上 图 是 站 在 地 面 上 
的 平视 拍摄 ， 下 图 是 站 在 河床 底部 的 仰视 拍摄 。 从 匹配 效果 可 以 看 出 ，SIFT 特 
征 描述 子 极 大 地 消除 旋转 、 光 照 和 尺度 变化 等 因素 的 影响 。 

实验 2: 航拍 图 像 序列 拼接 

本 章 实验 的 目的 正 是 在 飞行 器 和 相机 具体 参数 未 知 的 情况 下 快速 拼接 航拍 
图 像 ， 不 依赖 复杂 的 相机 标定 设备 、 旋 转台 和 陀螺 仪 等 ; 并 尽量 降低 对 航拍 的 
限制 条 件 ， 人 允许 图 像 之 间 较 大 的 亮度 差异 以 及 相机 的 轻微 晃动 等 ， 特殊 设备 拍 
摄 的 照片 以 及 在 精确 参数 下 的 图 像 拼 接 不 在 本 书 的 研究 之 列 。 

图 5-14a 是 无 人 机 航拍 的 黄河 凌 汛 的 一 组 照片 ,图像 上 主要 是 自然 景物 地 
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图 5-13 利用 SIFT 特征 进行 目标 匹配 


狗 ， 人 造 目 标 比较 少 ， 这 对 于 计算 机 自动 拼接 是 一 个 挑战 。 但 如 图 5- 14b 所 示 ， 
本 书 利用 SIFT 特征 进行 拼接 方法 十 分 稳健 ， 局 部 特征 提取 技术 减少 了 噪声 干扰 
和 光照 变化 的 影响 ， 多 分 辩 率 技术 的 应 用 也 有 效 地 降低 了 图 像 配 准 的 计算 开销 ; 


a) 


图 5-14 黄河 凌 汛 的 航拍 图 像 拼 接 结果 
a) 关于 黄河 凌 汛 的 航拍 图 像 序列 b) 拼接 后 的 效果 











































第 5 章 基于 局 部 特征 的 目标 匹配 + 123- 


通过 比较 最 近邻 点 和 次 近邻 点 的 距离 的 方法 也 可 以 有 效 地 剔除 “外 点 ”。 








图 5-15 太原 火车 站 的 航拍 图 像 拼 接 结 果 
a) 太原 火车 站 的 航拍 图 像 序列 b) 拼接 后 嵌入 地 图 的 效果 




















图 5- 15a 所 示 为 无 人 机 在 太原 火车 站 上 空 拍摄 的 一 组 照片 ， 图 5-15b 所 示 为 
其 拼接 后 般 入 地 图 的 效果 。 可 以 看 出 ,计算 机 自动 拼接 后 的 航拍 图 像 在 严格 对 
应 于 地 理 信息 系统 时 还 存在 一 些 问题 。 但 从 一 般 意义 上 讲 ， 这 部 分 内 容 并 不 属 
于 图 像 自动 拼接 技术 的 研究 范畴 ， 可 以 在 下 一 步 工作 中 引入 人 机 交互 的 方法 ， 
根据 相关 参数 对 拼接 图 像 进行 几何 校正 。 

本 书 提出 的 方法 也 适用 于 航拍 视频 图 像 拼 接 ， 图 5-16 所 示 为 从 一 段 空中 鸟 
梧 城 市 的 视频 里 抽取 图 像 进行 准 实 时 拼接 的 效果 。 这 也 表明 本 书 介绍 的 方法 稳 
定 、 可 靠 ， 在 保证 运算 速度 的 同时 依然 能 够 取得 很 好 的 视觉 效果 。 











图 5-16 航拍 视频 图 像 拼接 结果 
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实验 3: 基于 局 部 特征 的 图 像 检 索 

近年 来 ， 可 伸缩 颜色 描述 符 (Scalable Color Descriptor, SCD), FAXR 
度 空间 (Curvature Scale Space, CSS) 的 形状 描述 符 、 欧 拉 向 量 (EulerXor) 广 
泛 应 用 于 基于 内 容 的 图 像 检索 领域 。SCD 是 MPEG-7 推荐 的 四 个 可 以 独立 运用 
的 颜色 描述 符 之 一 ，CSS 也 是 MPEG-7 指定 的 形状 描述 方法 ，EulerXor 是 灰 度 图 
像 的 组 合 特征 ， 它 们 都 有 具有 维 数 小 、 计 算 简便 、 对 平移 和 旋转 不 敏感 的 特点 。 
本 章 将 本 书 提出 的 图 像 检 索 方法 与 利用 以 上 四 种 特征 的 检索 方法 进行 对 比 ， 实 
验 结 果 如 图 5-17 所 示 。 

由 于 Corel 图 像 库 中 每 类 图 像 的 颜色 特征 比较 明显 ， 对 类 别 的 区 分 度 较 高 ， 
SCD 的 效果 非常 好 ; 相对 而 言 ， 利 用 GLOH 特征 的 模板 匹配 方法 (GLOH-TM ) 
效果 最 差 ， 这 是 因为 匹配 方法 过 于 简单 ， 没 有 对 特征 进行 相应 的 处 理 ; 而 通过 
对 局 部 特征 进行 组 合 优 化 ， 利 用 GLOH 特征 的 原型 匹配 方法 (GLOH-PM) 的 检 
索 效 果 和 SCD 差距 很 小 ， 整 体 表现 比较 稳定 。 
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图 5-17 五 种 图 像 检索 方法 的 性 能 比较 


5.6 ARENA 








局 部 特征 的 提出 使 得 目标 匹配 可 以 从 整体 匹配 的 形式 转变 为 局 部 匹配 的 形 
式 ， 这 就 为 复杂 背景 下 的 图 像 目 标识 别提 供 了 一 条 有 效 的 途径 。 本 章 在 对 国内 
外 相关 领域 的 众多 研究 成 果 进 行 深 入 探讨 之 后 提出 了 一 种 局 部 特征 的 匹配 算法 ， 
该 算法 使 用 BBF 算法 进行 邻近 点 搜索 ， 通 过 最 邻近 距离 比值 甄别 错误 匹配 ， 并 
结合 霍 夫 变换 的 思想 进行 遮挡 目标 的 匹配 识别 。 









































第 5 章 基于 局 部 特征 的 目标 匹配 - 125. 








针对 目前 图 像 拼 接 和 图 像 检 索 方 法 的 不 足 之 处 ， 本 曹 结合 上 述 匹 配 算法 提 
出 了 基于 多 分 辨 率 技术 的 航拍 图 像 拼 接 方 法 ， 以 及 基于 原型 匹配 的 图 像 检 索 方 
法 。 与 当前 的 主流 方法 相 比 ， 进 一 步 验 证 了 利用 局 部 特征 进行 图 像 拼 接 和 检索 
的 可 行 性 。 在 下 一 步 工 作 中 ， 如 果 能 将 局 部 特征 与 颜色 、 纹 理 、 空 间 关 系 等 整 
体 特征 结合 起 来 ,会 有 更 好 的 实用 价值 和 发 展 前 景 。 
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概念 和 分 类 是 人 类 思考 和 行为 的 建筑 基石 。 


6.1 引言 





近 些 年 来 ， 目 标 分 类 识别 的 应 用 范围 越 加 广泛 ， 成 为 图 像 信 息 处 理 领 域 的 
一 个 研究 热点 。 其 理论 方法 主要 采用 无 结构 的 特征 组 织 方式 ， 目 的 旨 在 通过 训 
练 分 类 咒 或 特定 的 网 络 结构 ， 完 成 对 特定 的 特征 空间 中 点 的 划分 ， 形 成 某 些 具 
有 相似 特性 的 点 的 集合 。 分 类 训练 方法 主要 是 自 底 向 上 由 数据 驱动 ， 通 过 对 训 
练 样本 的 监督 学 习 ， 在 样本 空间 产生 合适 的 区 分 函数 ， 采 用 形成 的 分 类 顺 或 结 
构 参 数 对 待 识别 目标 进行 分 类 决策 得 到 最 终 的 目标 识别 结果 。 

判别 分 类 方法 可 以 从 图 像 数 据 中 获取 简单 的 结构 化 语义 ， 进 一 步 体 现 目标 
之 间 的 关系 ， 但 是 如 4. 1 节 所 述 ， 整 体 特征 自身 的 局 限 性 极 大 影响 了 图 像 目标 
分 类 的 实际 效果 。 而 由 于 局 部 特征 性 能 相对 优越 ， 其 含有 的 局 部 信息 可 以 对 图 
像 的 内 容 进 行 多 语义 层次 的 描述 ,不 少 研究 人 员 也 在 尝试 将 其 应 用 于 目标 
分 类 [83,126,127,193] 5 

本 书 在 1.2.3 节 中 曾经 论述 过 ， 人 类 进行 认 知 过 程 时 ， 大 脑 皮层 间 不 仅 存 
在 着 上 行 的 前 馈 投射 (提示 层次 性 整合 ) ， 还 存在 着 大 量 从 高 级 皮层 向 初级 皮层 
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的 反馈 投射 (提示 整体 性 调节 ) 。 层 次 性 与 整体 性 两 种 机 制 在 大 脑 皮层 的 认 知 过 
程 中 是 密 不 可 分 、 难 以 割裂 的 。 一 个 值得 注意 的 现象 就 是 在 认 知 过 程 中 存在 
“局 部 -整体 效应 ”和 “组 合 效应 ” 。 例 如 ， 在 人 脸 识别 过 程 中 ， 目 标 往往 会 被 
表达 成 一 个 不 可 分 割 的 整体 ， 而 不 是 仅仅 简单 的 局 部 组 合 。 

局 部 特征 的 单纯 组 合 或 者 全 局 尺度 的 特征 (整体 特征 ) 虽然 能 够 在 一 定 程 
度 上 对 图 像 目标 进行 描述 和 区 分 但 是 对 目标 发 生 的 某 些 局 部 或 特定 场景 的 变 
化 (比如 目标 遮挡 、 背 景 干扰 以 及 光照 、 角 度 、 仿 射 变换 等 ) 敏感 ， 其 稳定 性 
和 可 区 分 性 不 高 。 人 类 思维 中 的 概念 既 有 较 简 单 的 基本 概念 (低层 语义 ,语义 
粒度 最 细 ) ， 也 有 抽象 程度 较 高 的 概念 ( 较 高 层 语义 ,语义 粒度 较 粗 )， 各 层次 
语义 使 得 人 的 思维 中 语义 概念 具有 丰富 语义 粒度 。 从 人 类 认 知 角度 看 ,分 析 理 
解 的 过 程 是 不 同 层次 、 不 同 粒度 语义 信息 的 交互 过 程 。 

在 这 里 ， 对 第 一 章 中 图 1-1 所 示 的 图 像 目 标识 别 系统 的 基本 框架 进行 相应 
的 改进 ， 可 以 提出 一 种 结合 两 种 思路 〈 见 本 书 1.2.3 W) 的 目标 识别 模型 ,该 
模型 的 建立 过 程 如 图 6-1 所 示 。 其 核心 思想 就 是 从 训练 样本 中 提取 出 多 层次 的 
目标 特征 ， 然 后 利用 机 器 学 习 的 方法 学 习 获 取 的 语义 概念 并 建立 起 有 效 的 知识 
模型 ， 最终 就 可 以 在 知识 模型 的 指导 下 进行 测试 图 像 的 信息 处 理 和 分 类 识别 。 
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图 6-1 知识 驱动 的 图 像 识 别 模 型 


通过 上 述 分 析 可 以 看 出 ， 要 使 计算 机 能 够 高 效 地 处 理 真实 图 像 并 对 图 像 中 
的 目标 进行 识别 ， 建 立 图 像 认 知 的 层次 性 与 整体 机 制 是 十 分 必要 的 。 这 也 就 意 
味 着 我 们 必须 找到 一 种 理想 的 形式 化 表示 方法 ， 这 种 表示 一 方面 要 能 够 真实 地 
简约 地 反映 图 像 目 标的 内 容 ， 另 一 方面 ， 要 有 对 不 同 图 像 目 标的 区 分 能 力 。 目 
前 基于 局 部 特征 的 图 像 目 标 表示 通常 分 为 三 类 ， 分 别 是 向 量 空间 模型 ( Vector 
Space Model, VSM) 、 请 动 窗口 模型 和 结构 关系 模型 。 其 中 ， 向 量 空间 模型 表达 
简洁 、 应 用 方便 ， 不 用 考虑 特征 项 之 间 的 空间 关系 ， 是 当前 图 像 目标 分 类 的 主 
流 方法 。 
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6.2 目标 的 向 量 空间 模型 表示 














向 量 空间 模型 ， 又 称 特征 包 模 型 或 词 袋 模型 ， 是 Salton ACP! fe 20 世纪 
70 年 代 初 提出 的 ， 最 早 用 在 SMART 信息 检索 系统 中 ， 此 后 逐渐 发 展 成 为 自然 语 
言 处 理 中 常用 的 模型 ， 近 几 年 也 被 广泛 应 用 在 图 像 目 标识 别 中 。 

下 面 给 出 VSM 应 用 在 图 像 识 别 领 域 的 一 些 概 念 。 

e HER (Target): 也 称 对 象 或 物体 ， 通常 是 图 像 中 具有 某 种 相似 属性 的 同 
质 区 域 ， 如 图 像 分 割 产生 的 子 区 域 、 客 观 存 在 的 具有 某 种 物理 或 语义 意义 的 实 
体 直至 整 幅 图 像 ， 参 见 图 2-3 ， 在 本 章节 的 论述 中 ， 对 目标 和 图 像 的 概念 不 加 
区 分 。 

e 项 /特征 项 (Term/ Feature Term) : 特征 项 是 VSM 中 最 小 的 不 可 分 的 语义 单 
元 ， 可 以 是 任意 分 割 程度 上 的 子 区 域 。 一 个 目标 的 内 容 被 看 成 它 含 有 的 特征 项 所 
组 成 的 集合 ， 表 示 为 Target = T(1,, 5, 75, t), AP ÆREN, 1<k<n, 

e。 项 的 权重 (Tem Weight): 对 于 含有 nn 个 特征 项 的 目标 7 
(5, t, cns 6), E REED t, 都 依据 一 定 的 原则 被 赋予 一 个 权重 w;， 表 示 它 
们 在 目标 描述 中 的 重要 程度 。 这 样 一 个 目标 了 可 用 它 含 有 的 特征 项 及 其 特征 项 
所 对 应 的 权重 所 表示 : T=T(t, w; b, W; 2)， 简 记 为 了 = 了 
(wi, w, ce, w,), AP w, 就 是 特征 项 i 的 权重 ，7 hn。 

一 个 目标 在 上 述 约 定 下 可 以 看 成 是 nn 维 空间 中 的 一 个 向 量 ， 这 就 是 向 量 空 
间 模 型 的 由 来 。 下 面 结合 目标 的 表示 ， 给 出 其 定义 。 

定义 6-1 (向 量 空间 模型 ) ”给 定 一 个 目标 T(i, w; t, W; ons t, w,), T 
符合 以 下 两 条 约定 : 

1) 各 个 特征 项 i, (1<k<n) 互 异 ( 即 没有 重复 ); 

2) 各 个 特征 项 i 无 先后 顺序 关系 ( 即 不 考虑 目标 的 内 部 结构 )。 

在 以 上 两 个 约定 下 ， 可 以 把 特征 项 1 ，t;,，…， LAR— n AERA, m 
权重 ww，w,，…，w, 为 相应 的 坐标 值 ， 因 此 ， 一 个 目标 就 表示 为 n 维 空间 中 的 
一 个 向 量 。 我 们 称 了 =7T (w, w, 0, w,) 为 目标 了 的 向 量 表示 或 向 量 空间 模 
型 ， 如 图 6-2 所 示 。 

定义 6-2 (向 量 的 相似 度 度量 ) ”任意 两 个 目标 7T, 和 7, 之 间 的 相似 系数 
Sim(T,, T, ) 指 两 个 目标 内 容 的 相关 程度 ( Degree of Relevance), ix HR T, 和 
T, 表示 VSM 中 的 两 个 向 量 : 
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T\(W11,W125° Win) 
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图 6-2 目标 的 向 量 空间 模型 示意 图 


T, =T, (wi QW, c, W,,) 

T, =T, (w, Wa, t, Wa) (6-1) 
那么 ， 可 以 借助 n 维 空间 中 两 个 向 量 之 间 的 某 种 距离 来 表示 目标 间 的 相似 系数 ， 
常用 的 方法 是 使 用 向 量 之 间 的 内 积 " 来 计算 : 











Sim(T,, T,) = ` Wi, X Woy (6-2) 
如 果 考 虑 向 量 的 归 一 化 ， 则 可 使 用 两 个 向 量 夹 角 的 余 s 弦 值 来 表示 相似 系数 : 
Yu X wy, 
Sim(T,, T,) = cos = —— = (6-3) 
[ese 


采用 向 量 空 间 模型 进行 目标 表示 时 ， 需 要 经 过 以 下 两 个 主要 步骤 : 

1) 根据 训练 样本 生成 目标 表示 所 需要 的 特征 项 序列 了 = 0, tp, oy tabs 

2) 依据 目标 特征 项 序列 ， 对 训练 集 和 测试 集中 的 各 个 目标 样本 进行 权重 赋 
值 、 规 范 化 等 处 理 ， 将 其 转化 为 机 带 学 习 算 法 所 需 的 模式 向 量 。 

















6.3 ”构造 视觉 单词 库 








在 目标 识别 领域 ,向 量 空间 模型 之 所 以 称 为 特征 包 模 型 或 词 袋 模 型 ， 是 
因为 它 将 目标 图 像 看 成 由 大 量 的 视觉 单词 (Visual Word) 构成 。 如 图 6-3 所 
示 ， 在 目标 分 类 识别 中 ,目标 的 类 别 相当 于 文档 的 主题 ， 而 文档 的 主题 通过 
其 词句 来 判断 ， 同 样 ， 某 个 目标 的 类 别 可 以 通过 构成 它 的 视觉 单词 进行 
决策 。 
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目标 的 视觉 单词 文本 的 特征 项 





图 6-3 特征 包 模 型 示意 图 


6.3.1 视觉 单词 的 生成 方法 


从 大 量 样 本 中 提取 的 局 部 特征 千差万别 且 数 量 巨 大 ， 如 图 6-4 所 示 ， 哪 怕 
是 从 同类 目标 上 提取 的 描述 同一 部 件 的 局 部 特征 ， 也 往往 是 有 所 不 同 。 这 些 
“模板 ”描述 得 过 于 具体 ， 虽 然 可 以 对 某 一 个 体 进 行 精确 匹配 ， 但 不 适 于 对 一 类 
目标 的 识别 。 这 就 需要 像 文 本 中 的 词句 一 样 ， 从 众多 具体 事物 的 描述 中 抽象 出 
“概念 ” ， 从 而 抓 住 一 类 事物 的 共性 。 比 如 ， 我 们 生活 中 见 过 许多 狗 ， 当 提 及 
“ 狗 ” 的 时 候 ， 我 们 想到 的 应 该 不 是 某 个 特定 的 狗 ， 而 是 狗 的 理想 化 模型 一 一 是 
对 一 个 非常 典型 的 狗 的 描述 ,与 其 完全 相像 的 狗 在 现实 生活 中 也 许 存在 ， 也 许 
根本 不 存在 。 

正如 本 书 5.4 节 所 述 ， 相 近 的 局 部 特征 经 过 优化 组 合 之 后 可 以 形成 “原型 ” 
特征 ， 也 就 是 视觉 单词 。 大 量 的 视觉 单词 就 组 成 了 视觉 单词 库 ， 在 一 些 文献 中 
也 称 之 为 码 书 (Codebook)。 用 视觉 单词 作为 向 量 空间 模型 中 的 特征 项 ， 就 可 以 
解决 目标 图 像 的 表示 问题 ， 从 而 实现 基于 向 量 空间 模型 的 目标 分 类 了 。 

对 局 部 特征 进行 聚 类 是 构造 视觉 单词 的 一 种 有 效 途径 ， 因 为 聚 类 分 析 的 目 
的 就 是 将 物理 或 抽象 对 象 的 集合 分 组 成 由 类 似 的 对 象 组 成 的 多 个 类 :5 。5.4 节 
简单 介绍 了 聚 类 算法 的 几 种 类 型 ， 其 中 最 为 常用 的 是 划分 方法 中 的 太平 均值 
(k-means) 和 层次 方法 中 的 凝聚 (Agglomerative) RŽ, 

k-means 算法 是 根据 预定 的 类 别 数目 随机 地 选取 个 对 象 作为 初始 的 簇 中 
心 。 对 剩余 的 每 个 对 象 ， 根 据 其 与 各 个 簇 中 心 的 距离 ， 将 它 赋 给 最 近 的 簇 。 然 
后 重新 计算 每 个 复 的 平均 值 。 这 个 过 程 不 断 重 复 ， 直 到 准则 函数 收敛 。 对 处 理 
大 数据 集 ， 该 算法 是 相对 可 伸缩 和 高 效率 的 ， 它 的 复杂 度 是 O (zi)， 其 中 , n 
是 所 有 对 象 的 数目 ,是 簇 的 数目 ,i 是 迭代 的 次 数 ， AR kn, Hin, 但 是 
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B] 6-4 各 种 局 部 特征 示例 





这 个 算法 经 常 以 局 部 最 优 结束 ， 必 须 实现 给 出 簇 的 数目 ， 对 “噪声 ”和 孤立 点 
数据 非常 敏感 ， 而 且 不 适合 与 发 现 非 凸 面 形 状 的 簇 。 

许 聚 聚 类 是 将 每 个 对 象 作为 一 个 徐 ， 然 后 合并 这 些 原 子 篮 为 越 来 越 大 的 篮 ， 
直到 所 有 对 象 都 在 一 个 簇 中 ， 或 者 某 个 终结 条 件 被 满足 。 然 而 ,凝聚 聚 类 尽管 
简单 ， 但 经 常会 遇 到 合并 点 的 选择 困难 。 这 样 的 决定 非常 关键 ， 因 为 一 旦 一 组 
对 象 被 合并 ， 下 一 步 的 处 理 将 在 新 生成 的 篮 上 进行 ， 这 一 步骤 无 法 撤销 ， 聚 类 
之 间 也 不 能 交换 对 象 。 所 以 ， 每 次 合并 之 前 需要 检查 和 估算 大 量 的 对 象 或 秘 ， 
其 过 高 的 时 间 复 杂 度 和 空间 复杂 度 严重 制约 了 该 算法 的 应 用 。 


6.3.2 基于 RNN 的 层次 聚 类 算法 


RNN 算法 对 标准 层次 聚 类 的 合并 准则 和 相似 度 度量 做 了 相应 的 改进 ， 从 而 
降低 了 其 复杂 度 ， 使 其 更 适用 于 大 规模 的 数据 集 。 该 算法 的 基本 原理 虽然 在 20 
多 年 前 已 经 提出 ,但 是 直到 最 近 几 年 才 被 应 用 在 目标 识别 领域 '”]。RNN 算法 的 
核心 思想 是 构造 相互 最 近邻 对 (Reciprocal Nearest Neighbor Pairs, RNNP), ， 也 就 
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是 一 对 互 为 最 近邻 的 数据 点 ， 这 就 满足 了 聚 类 的 可 还 原 性 一 一 当 两 个 簇 C. RII C; 
进行 合并 之 后 ， MAUMERE C, 的 相似 度 要 减 小 ， 其 表达 式 如 下 ， 
sim(C;, C,) Zsup(sim(C;, C,) , sim(C;, C,)) 5 
sup(sim( C;, C,) , sim(C,, C,) ) Zsim( CjUC;, C,) (6-4) 
这 就 保证 了 合并 最 近邻 对 时 不 改变 与 任何 其 他 簇 的 最 邻近 关系 ， 而 且 该 性 质 对 
于 平均 距离 和 平均 值 的 距离 两 种 簇 间 距离 度量 方法 来 说 ， 都 是 完备 的 。 令 





X2 fal) «e, aM PAV = fy, one, | WADE, 则 这 两 种 徐 间 距离 度量 
的 定义 为 
平均 距离 ; sim(X, Y) = > > sim( x? , y? ) (6-5) 
ud E 1 N a 1 M j i 
平均 值 的 距离 : sim(X, Y) = sim( s. iy) (6:5) 


本 书 采 用 平均 距离 作为 两 个 复 的 相似 度 度量 (ee 
据点 建立 一 条 最 近邻 链 (Nearest Neighbor Chain) ， 通 过 最 近邻 链 来 简单 有 效 地 
寻找 到 最 近邻 对 。 具 体 步 又 如 下 : 


算法 : 基于 最 近邻 链 的 RNN 凝聚 聚 类 
// 随 机 选 定 一 个 数据 点 ve 了 初始 化 链表 区 
/剩余 的 数据 点 都 包含 在 集合 尺 中 


last*-0; lastsim [0] 0 














L [las] veV; R—VVv 
WhileR 4 Ø do 
// 在 集合 R 中 搜索 下 一 个 最 近邻 点 并 计算 相似 度 
(s, sim) *—getNearestNeighbor (L [last], R) 








if sim > lastsim | last] then 
// 没 有 找到 最 近邻 对 ， 把 s 添加 到 最 近邻 链 中 
last*—last +1 
L [las] «s; R—R\ js} 
lastsim [last] *—sim 
else 
// 找 到 最 近邻 对 ， 合 并 链表 最 后 两 个 节点 


if lastsim [last] >t then 





s*-agglomerate (L [last], L [last -1]) 
R-—RU js} 
last*—last — 2 


else 








" 134 .图像 目 标的 表示 与 识别 

















( 续 ) 
// 丢 弃 当 前 链表 
last -1 
end if 
end if 


if last <0 then 
// 重 新 随机 选择 一 个 数据 点 ve R 建立 一 个 新 链表 


last*—last + 1 





L [last] ve R; RR\ jv} 
end if 


end while 


整个 聚 类 过 程 需要 3 (N - 1) 次 近代 ， 其 搜索 最 近邻 点 的 时 间 代价 最 低 可 以 
降 到 0(n)。 当 合并 最 近邻 对 得 到 一 个 新 的 徐 时 ， 需 要 重新 计算 该 包 与 其 他 各 个 
徐 的 相似 度 ， 如 果 通过 平均 值 的 距离 来 度量 两 个 徐 的 距离 ， 其 计算 复杂 度 仅 为 
0(n) ,但 是 由 于 本 书 采用 的 是 平均 距离 ， 则 需要 通过 更 为 有 效 的 方法 进一步 降低 
复杂 度 。 

Bey, mA o^, PAIKRE X, 了 的 平均 值 和 方差 ， 两 个 侯 的 平均 距离 
(在 欧 氏 空间 中 ) 可 以 用 下 面 的 公式 表示 ; 


1 N M i f 5 
sim(X, Y)= - uy Y, X  -y%)?  - (c? «o + (n, -u,Y) (6-7) 
i=l j=l f 


FR FH APH SO HY AIEE, Hin AE BE PR FEME. d 
FP BBE RT P^ EHE SEE, STRE BUSES EURUT 28 VE SEIS CT F : 











(6-8) 


2 o dl M 2 
Ua p Nri e Mo? e P. py) ) (6-9) 


WK, FARRER REN O), ZS TAZ AREE AY O (n), KE TARE RK 
据 ， 还 可 以 通过 更 为 有 效 的 最 近邻 搜索 技术 进一步 降低 复杂 度 。 





6.4 基于 信息 论 的 特征 选择 方法 


解决 “ 维 数 灾难 ”现象 是 模式 识别 领域 的 一 个 非常 重要 的 任务 ， 因 为 提取 
出 的 原始 特征 往往 数量 庞大 ， 不 仅 增 加 了 计算 复杂 度 ， 而 且 很 大 程度 上 影响 了 
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分 类 器 的 设计 及 其 性 能 。 这 就 需要 从 一 组 特征 中 挑选 出 一 些 最 有 效 的 特征 以 达 
到 降低 特征 空间 维 数 的 目的 ， 这 个 过 程 叫做 特征 选择 或 特征 压缩 。 

最 简单 的 特征 选择 方法 是 根据 专家 (相关 领域 的 科研 人 员 ) 的 知识 挑选 出 
那些 对 分 类 识别 最 有 影响 的 特征 ; 另 一 个 可 能 则 是 用 统计 学 和 信息 论 的 方法 进 
行 筛选 比较 ， 来 找 出 最 有 分 类 信息 的 特征 。 显 然 ， 前 者 受到 太 多 的 条 件 限 制 不 
是 很 实用 ， 而 后 者 则 是 当前 模式 识别 领域 的 研究 热点 。 

目前 已 有 的 特征 选择 方法 比较 多 ， 其 中 基于 图 像 频率 的 特征 选择 方法 简单 
易 行 ， 可 以 在 降低 特征 空间 复杂 度 的 同时 去 掉 一 部 分 噪声 特征 ， 但 低频 特征 
也 可 能 带 有 很 大 的 信息 量 ， 该 方法 直接 去 除 低频 特征 会 影响 识别 效果 ; x^ BE 
计量 度量 特征 和 类 别 独立 性 的 缺乏 程度 ， 优 点 是 降 维 效果 比较 好 ,缺点 则 是 
统计 花费 大 ; 术语 强度 的 特点 是 基于 目标 聚 类 的 方法 ， 认 为 在 相关 目标 中 出 
现 次 数 越 多 的 特征 具有 信息 量 ， 这 样 可 以 去 掉 大 部 分 无 信息 量 或 带 有 很 少 信 
息 量 的 特征 ， 但 在 图 像 目 标 分 类 的 实验 中 效果 不 是 很 好 。 本 书 的 2.4.1 XE 
这 些 方法 的 特点 也 做 了 相应 评述 ， 基 于 这 些 分 析 以 及 目标 分 类 的 具体 应 用 特 
点 ， 本 章 分 别 采 用 了 信息 论 中 的 信息 增益 (IG) 法 和 互信 息 (MI) 法 对 图 像 






























































































































































6.4.1 信息 论 的 相关 概念 


信息 是 个 相当 宽泛 的 概念 ， 很 难 用 一 个 简单 的 定义 将 其 完全 准确 地 把 握 。 
然而 对 于 任何 一 个 概率 分 布 ， 可 以 定义 一 个 称 为 炉 (Entropy) 的 量 ， 它 具有 许 
多 特性 符合 度量 信息 的 直观 要 求 ， 是 信息 论 的 基本 概念 。 

如 果 马 是 一 个 离散 型 随机 变量 ， 取 值 空间 为 R， 其 概率 分 布 为 p (x) = 
P(X zx), xe R, MAX HIRI A(X) CN 

H(X) = - 2, pGOlegp (x) (6-10) 

有 时 也 将 H OX) H (p) Heros REL 2 AU, S PP DERE EUR: (二进制 
位 ) 表示 。 所 以 通常 将 log,p (x ) 简 写成 logp (x)， 并 约定 0log0 20, 

Ni LPN A fa (Self- information) ， 可 以 视 为 描述 一 个 随机 变量 的 不 确定 
性 的 数量 。 它 表示 信 源 每 发 出 一 个 符号 〈 不 论 发 出 什么 符号 ) 所 提供 的 平均 
信息 量 品 ] 。 一 个 随机 变量 的 精 越 大 ， 它 的 不 确定 性 越 大 ,那么 ， 正 确 估计 其 值 
的 可 能 性 就 越 小 。 越 不 确定 的 随机 变量 越 需要 大 的 信息 量 用 以 确定 其 值 。 

WRX, 了 是 一 对 离散 型 随机 变量 ，X，Y~p(x*，y)，X, Y WKE (Joint 
Entropy) H(X, Y)xE SON 
























































" 136 . ”图 像 目标 的 表示 与 识别 














H(X, Y)=- 2. È px, y)logp(x, y) (6-11) 
ZAG ST E EX its — o BELA i PH] Fr s E B SE 
给 定 随机 变量 X 的 情况 下 ， 随 机 变量 了 AZAR] (Conditional Entropy) 定 
SOUT 





H(Y| X)= Y, p(®)H(YI X ==) 
= È p|- 2 ply! Oleg G1 x)] 
=- Y MG, y)logp(y! x) (6-12) 


将 式 (6-11) 中 的 联合 概率 p(x，y) 展 开 ， 可 得 
H(X, Y)=- Y, Y, pla, y)loglp(x)p (yl x)] 


xeX yeY 


=- E È pC, y) [log p(x) + log p(y! x)] 


xeX yey 


= 之 È p(x, y)log p(x) - > È pls, y log p(y! x) 


xeX yeY 


=- E È pls, yogp(x)- YY p(x, ylog p(y! x) 
-H(X) € H(Y1 X) | (6-13) 
BARA MIE BAUM (Chain Rule of Entropy) 。 推 广 到 一 般 情况 ， 有 
H(X,, X, +, X) =H(X,) &HOGIX ) e + HOCGAX,, |) 


(6-14) 





6.4.2 ”基于 信息 增益 法 的 特征 选择 


利用 信息 增益 法 选择 特征 ， 是 依据 某 个 特征 项 上 为 整个 分 类 所 能 提供 的 信息 
量 多 少 来 衡量 该 特征 项 的 重要 程度 ， 从 而 决定 对 该 特征 项 的 取舍 。 茶 个 特征 项 
的 信息 增益 是 指 有 该 特征 或 没有 该 特征 时 ， 为 整个 分 类 所 能 提供 的 信息 量 的 差 
别 ， 其 中 ， 信 息 量 的 多 少 就 用 箭 来 衡量 。 可 以 计算 出 不 考虑 任何 特征 时 目标 的 
炉 以 及 考虑 该 特征 后 目标 的 炉 ， 并 将 两 者 之 间 的 差 值 定义 为 信息 增益 : 

IG(t;) =H(T) -H(TI|t;) 





















































={- > P(C,) xlogP(C,)}-{P(t,) x [ - > P(C,t;) xlogP(C,lt,) | 


-P(t) x|- > P(C,lt,) xlogP(C;1t;) |} (6-15) 
HP, P(C) 表示 C, 类 目标 在 样本 集中 出 现 的 概率 ，P(1;) 表示 样本 集中 包含 
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村 征 项 4 的 目标 的 概率 ，P( Ci |). 表示 目标 包含 特征 项 5 时 属于 COE A PEE 
R, PO) 表示 样本 集中 不 包含 特征 项 1, 的 目标 的 概率 ，P( C1 g) 表示 目标 不 
包含 特征 项 i 时 属于 Cj 类 的 条 件 概率 ，M 表示 类 别 数 。 

从 信息 增益 的 定义 可 知 ， 一 个 特征 的 信息 增益 实际 上 描述 的 是 它 包含 的 能 够 
帮助 预测 类 别 属性 的 信息 量 。 从 理论 上 讲 ， 信 息 增 益 应 该 是 最 好 的 特征 选择 方法 ， 
但 实际 上 由 于 许多 信息 增益 比较 高 的 特征 出 现 频率 往往 较 低 ， 所 以 当 使 用 信息 增 
益 选 择 的 特征 数目 比较 少时 ， 往 往 会 存在 数据 稀 政 问题 ， 此 时 识别 效果 也 比较 差 。 
对 此 的 改进 方法 是 ， 首 先 对 训练 集中 出 现 的 每 个 特征 项 计算 其 信息 增益 ， 然 后 指 
定 一 个 阔 值 ， 从 特征 空间 中 移 除 那些 信息 增益 低 于 此 阔 值 的 特征 项 ;或 者 指定 保 
留 的 特征 项 个 数 ， 按 照 增益 值 从 高 到 低 的 顺序 选择 特征 项 组 成 特征 向 量 。 


6.4.3 基于 CHI 统计 量 的 特征 选择 


统计 量 (CH) 衡量 的 是 特征 项 it, 和 类 别 C 之 间 的 相关 联 程度 ， 并 假设 i 
和 C, 之 间 符 合 具有 一 阶 自由 度 的 分布。 特征 对 于 某 类 的 x 统计 值 越 高 ， 它 与 
该 类 之 间 的 相关 性 越 大 ， 携 带 的 类 别 信息 也 越 多 ， 反 之 则 越 少 。 

MRS N 表示 训练 集中 样本 的 总 数 ，4 表示 属于 C, 类 且 包 含 i 的 目标 频数 ， 
B 表示 不 属于 C, 类 但 包含 1 的 目标 频数 ，C 表示 属于 C 类 但 不 包含 i 的 目标 频数 ， 
D 是 既 不 属于 C) 类 也 不 包含 的 目标 频数 。 上 述 四 种 情况 可 以 用 表 6-1 表示 。 

表 6-1 特征 项 与 类 别 关 系 的 表示 













































































类 别 
G ot 
特征 项 
t; A 
~t C D 








FERES Xf C 的 CHI 值 为 





] E Nx(AxD-CxBy 
X 4 (B+D)x(A+B)x (C+D) 


对 于 多 类 问题 ， 基 于 CHI 统计 量 的 特征 选择 方法 可 以 采用 两 种 实现 方法 ; 
一 种 是 分 别 计算 4 对 于 每 个 类 别 的 CHI 值 ， 然 后 在 整个 训练 集 上 计算 ， 

Xa UO = marty? (t, 6)3 (6-17) 
式 中 ，W 为 类 别 数 。 从 原始 特征 空间 中 去 除 统计 量 低 于 给 定 阔 值 的 特征 ， 保 留 
统计 量 高 于 给 定 阔 值 的 特征 作为 目标 特征 。 另 一 种 方法 是 ， 计 算 各 特征 对 于 各 





(6-16) 
































" 138 . ”图 像 目 标的 表示 与 识别 
类 别 的 平均 值 : 














Xave (ti) = > P(C NW (5, C;) (6-18) 


以 这 个 平均 值 作为 各 类 别 的 CHI 值 。 但 有 研究 表明 ， 后 一 种 方法 的 表现 不 如 前 
一 种 方法 。 


6.4.4 基于 互信 息 法 的 特征 选择 


根据 炉 的 连锁 规则 ， 有 
H(X, Y)=H(X) +H(YIX)=H(Y) + H(XIY) (6-19) 





因此 ， 
H(X) - H(XIY)  H(Y) - H(YIX) (6-20) 

ASA mé X MY By fum, WE TCX; 了 )。 或 者 定义 为 : 如 果 (X, 了 ) ~ 
p(x, 7y)， 则 X,Y 了 之 间 的 互信 息 T(X; Y)=H(X)-H(X| Y), 

互信 息 是 一 个 均衡 非 负 的 信息 测度 ，1(X; 了 ) 反 映 的 是 在 知道 了 Y 的 值 以 后 
的 不 确定 性 的 减少 量 。 可 以 理解 为 Y 的 值 透 漏 了 多 少 关 于 XX 的 信息 量 。 互 信 
息 和 炉 之 间 的 关系 可 以 用 图 6-5 表示 。 

H(XY) 


AAA 


Pd SS 
A(X) H(Y) 


图 6-5 ERaMMZAWKAD EA 


如 果 将 定义 中 的 H(X) 和 五 (X1 VEF, í$ 
I(X; Y)=H(X)-H(XI Y) 
-H(X) - H(Y) - H(X, Y) 


- È polog 75 + Y Pros 5 + 2 pls y)logp(x, y) 





z x log P&D - 


HT A(X! X)20, Alt 
H(X) =H(X) - H(XIX) -I(X;X) (6-22) 
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这 一 方面 说 明了 粹 之 所 以 称 为 自信 息 的 原因 ， 男 一 方面 说 明了 两 个 完全 相 
互 依赖 的 变量 之 间 的 互信 息 并 不 是 一 个 常量 ,而 是 取决 于 它们 的 焙 。 实 际 上 ， 
互信 息 体现 了 两 变量 之 间 的 依赖 程度 ， 如 果 1(X; Y)>>0, RH XA YERE 
相关 的 ; 如 果 I(X; Y)=0, 表明 对 和 Y 是 相互 独立 的 ;， 如果 I(X; Y) <<0， 表 
明 针 和 了 Y 是 互 不 相关 的 分 布 。 

利用 互信 息 法 选择 特征 的 基本 原则 是 选择 类 别 相 关 的 特征 ， 同 时 排除 宛 余 
的 特征 。 特 征 与 类 别 之 间 的 互信 息 很 好 地 度量 了 特征 的 相关 性 ， 特 征 与 特征 之 
间 的 互信 息 则 度量 它们 之 间 的 相似 性 (STARE) 。 因 此 ， 基 于 互信 息 的 特征 选择 
一 般 遵 循 这 样 一 种 模式 ， 在 顺序 前 向 搜索 中 寻找 与 类 别 互信 息 最 大 而 与 前 面 已 
选 特征 互信 息 最 小 的 特征 项 。 

在 目标 分 类 中 可 以 简单 认为 : 互信 息 越 大 ， 特 征 t, 和 类 别 C; 共 现 的 程度 越 
大 。 那 么 , 5 和 Ci; 的 互信 息 可 以 由 下 式 计算 : 
sig P(t, C) ia O i Ax 

P(t,)P(C,) P(t;) (A+C) x(A* B) 
AP, A. B, C, DING X0816.4.3 节 中 约定 的 完全 相同 。 如 果 特 征 志和 类 别 C; 
无 关 , W Pon, C) =P) xP(C,), WA, I(t, C) =0。 

为 了 选 出 对 多 类 图 像 目标 识别 有 用 的 特征 ， 与 上 面 的 基于 CHI 统计 量 的 处 
理 方 法 类 似 ， 基 于 互信 息 法 的 特征 选择 也 可 以 采用 最 大 值 和 平均 值 两 种 实现 
方法 : 














































































































I(t;, Cj) (6-23) 


























M = max [P(C,) xI(1,, C,)] (6-24) 


Taye i) = $ P(C,)ICt,, C;) (6-25) 


6.5 视觉 单词 的 权重 计算 





视觉 单词 权重 用 于 衡量 某 个 视觉 单词 (特征 项 ) 在 目标 表示 中 的 重要 程度 
或 者 区 分 能 力 的 强 弱 。 权 重 计算 的 一 般 方法 是 利用 训练 集 样本 的 统计 信息 ， 主 
要 是 词 频 ， 给 视觉 单词 赋予 一 定 的 权重 。 注 意 ,“ 词 频 ” 以 及 后 面 提 到 的 “文档 
频 度 ”， 都 是 在 文本 分 类 中 产生 的 ， 在 本 音节 中 用 图 像 目 标 相关 的 概念 进行 理解 
即 可 ， 不 再 特意 进行 替换 。 

本 书 参阅 相关 文献 ， 将 一 些 常用 的 权重 计算 方法 归纳 为 表 6-2 所 示 的 形式 。 
表 中 各 变量 的 说 明 如 下 ; w; 表 示 特 征 项 上 在 目标 也 中 的 权重 ， 坊 表示 特征 项 上 六 在 
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训练 样本 也 中 出 现 的 频 度 ; n, 是 训练 集中 出 现 特征 项 # 的 样本 数 ，N 是 训练 集中 
总 共 的 样本 数 ; M 为 特征 项 的 个 数 ，ni; 为 特征 项 i 在 训练 样本 中 出 现 的 次 数 。 
表 6-2 特征 权重 的 计算 方法 




















































































































名 称 ALE PAL 说 明 
| 如 果 目 标 中 出 现 该 特征 
1, WER if, >0 "n 
布尔 权重 Ww, -| si 项 ， 那 么 模式 向 量 的 该 分 
0, Ail 
7 量 为 1， 和 否则 为 0 
绝对 词 频 f 使 用 特征 项 在 目标 中 出 
(TF) ” 现 的 频 度 表示 目标 
倒 排 文档 频 度 i 稀有 特征 比 常用 特征 含 
wi; = log 
(IDF) " ni 有 更 新 的 信息 
权重 与 特征 项 在 目标 中 
N 出 现 的 频率 成 正比 ， 与 在 
TF-IDF w; = tf; x log — 
ibo ni 整个 训练 集中 出 现 该 特征 
项 的 样本 数 成 反比 
TFC TEN n anus 对 目标 长 度 进行 归 一 化 
JÈ [fy x log CN/ni >F 处 理 后 的 TF-IDF 
tje T; 
- log if, + 1. 00x log CN/n;2 TE TFC 基础 上 ， 用 护 的 
ij 
ITC "o [log Gf, + 1. 00x log CN/n, >P 对 数值 代替 of fi 
tie Tj Y 
= p [fa (fi m 
ARE Wi = log Gf; +1.0)x 1+ lozN 2 Pinos ( 1) 建立 在 言 息 论 的 基础 上 
ogN j= i i 
在 TF-IDF 算法 的 基础 
M 上 ， 用 特征 项 频率 倒数 的 
TF-IWF 对 数值 IWF 





2 
i: 
wy = tfi x CE jJ 
nt; 


i 





CPE IDF; 并 
HH IWF 的 平方 平衡 权重 
值 对 于 特征 项 频率 的 倚重 


























由 于 布尔 权重 ( Boolean Weighting) 计算 方法 无 法 体现 特征 项 在 文本 中 的 作 
用 程度 ， 因 而 在 实际 应 用 中 0、1 值 逐 渐 地 被 更 精确 的 特征 项 的 频率 所 代替 。 在 
绝对 词 频 (Term Frequency, TF) 方法 中 , 无 法 体现 低频 特征 项 的 区 分 能 力 ， 











为 有 些 特 征 项 频率 虽然 很 高 ， 但 分 类 能 力 很 弱 (比如 大 多 数目 标 共 有 的 局 部 特 


4 








征 或 背景 特征 ) ， 而 有 些 特征 项 虽然 频率 较 低 ， 但 分 类 能 力 却 很 强 。 


倒 排 文档 频 度 (Inverse Document Frequency, IDF) 法 是 文本 分 类 中 计算 词 
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与 文献 相关 权重 的 经 典 方法 ， 其 在 信息 检索 中 占有 重要 地 位 。 该 方法 在 实际 使 
用 中 ， 常 用 公式 二 +log((CV-m)Mm) 代 替 ， 其 中 ， 常 数 了 为 经 验 值 ， 一 般 取 为 
1。IDF 方 法 的 权重 值 随 着 包含 某 个 特征 的 样本 数量 n, 的 变化 呈 反 向 变化 ， 在 极 
端 情况 下 ， 只 在 一 个 样本 中 出 现 的 特征 含有 最 高 的 IDF 值 。 

本 章 使 用 的 特征 权重 计算 方法 TF-IDF， 该 方法 的 公式 有 多 种 表达 形式 ， 
TFC 方法 和 ITC 方法 都 是 它 的 变种 。 实 际 应 用 中 ， 有 一 种 比较 普遍 的 TF-IDF 


AN: 


























tf; x log N/n, + 0.01) 
w, = RENE (6-26) 


JÈ Uf; x lon, + 0.019 F 
tje T; 








oe (1 + log, tf;,)* log, (N/n,) 
' Jat + log,tf,) X log; (N/n,) F 

TR-IWF (Inverse Word Frequency) 权重 算法 也 是 在 TF-IDF 算法 的 基础 上 提 
出 的 ， 其 不 同 之 处 在 于 : 

1) TF-IWF 算法 中 用 特征 频率 倒数 的 对 数值 IWF 代替 IDF; 

2) TF-IWF 算法 中 采用 IWF 的 平方 来 平衡 权重 值 对 于 特征 频率 的 倚重 ， 不 
像 IDF 中 采用 的 是 一 次 方 ， 给 了 特征 频率 太 多 的 倚重 。 

此 外 ， 还 有 很 多 特征 权重 的 计算 方法 ， 可 以 参阅 文本 分 类 的 相关 文献 ， 这 
里 不 再 一 一 列举 。 需 要 说 明 的 是 ， 权 重 计算 方法 与 特征 提取 方法 有 着 一 定 的 关 
联 ， 而 很 多 文献 引入 的 新 的 计算 变量 实质 上 都 是 考虑 特征 项 在 整个 类 中 的 分 布 
问题 。 因 此 ， 需 要 进一步 进行 理论 研究 ， 获 得 更 一 般 的 有 关 特 征 权 重 确定 的 结 
论 ， 而 不 是 仅仅 从 不 同 的 角度 定义 不 同 的 计算 公式 。 





(6-27) 























6.6 实验 结果 与 分 析 


1. 实验 环境 
(1) 硬件 环境 
普通 DELL 台式 计算 机 一 台 ， 基 本 配置 为 P(OR) D/3. 4GHz/1. 00G/160G/19in, 
(2) 软件 环境 

WindowsXP 操作 系统 ，Visual Studio C+ +6. 0 开发 平台 ，OpenCV 函数 库 。 
2. 实验 数据 来 源 

MSR 图 像 库 包 含 海滩、 瀑布 、 沙 漠 、 山 脉 、 建 筑 物 、 小 汽车 、 花 弄 、 水 果 、 
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飞鸟 、 蝴 蝶 等 22 类 共计 3000 幅 彩 色 图 像 ， 均 存储 为 JPEG 格式 ， 大 小 为 352 x 
231 像素 至 352 x 530 像素 不 等 。 每 一 类 图 像 数目 为 42 ~ 289 幅 ， 图 像 中 目标 的 
型 号 和 姿态 各 异 。 

为 了 验证 视觉 单词 库 的 性 能 ， 以 及 特征 选择 方法 的 效果 ， 本 章 选 用 图 像 库 
中 的 8 类 图 像 分 别 求 取 在 二 分 类 问题 上 的 实验 结果 。 如 图 6-6 所 示 ， 在 进行 汽车 
图 像 和 建筑 物 图 像 分 类 时 ， 挑 选 正 负 样本 各 100 幅 作 为 训练 集 样本 ,各 25 幅 作 
为 测试 集 样本 ， 并 挑选 出 40 ~ 100 个 正 样本 用 以 构造 视觉 单词 库 。 训 练 集 与 测 
试 集 相互 独立 ， 即 两 者 不 含有 同一 幅 图 像 。 





























图 6-6 训练 集 的 正 负 样本 示例 


3. 分 类 器 选用 

目标 识别 系统 中 分 类 央 的 作用 是 : 根据 特征 提取 需 得 到 的 特征 向 量 来 给 一 
个 被 测 对 象 赋 一 个 类 别 标记 '”!。 分 类 器 的 设计 方法 可 以 分 为 生成 (Generative) 
方法 和 判别 ( Discriminative) 方法 两 类 。 生 成 方法 是 根据 类 别 出 现 的 先 验 概率 和 
条 件 概 率 来 估计 目标 的 类 别 概率 ， 它 将 分 类 需 设 计 问题 转化 为 了 概率 密度 估计 
问题 ， 其 代表 是 朴素 贝 叶 斯 分 类 需 (Naive Bayesian Classifier, NBC); 而 在 判别 
方法 中 ， 将 每 个 目标 视 为 整个 特征 空间 中 的 一 个 点 ， 认 为 不 同 的 类 别 是 特征 空 
间 中 不 同 的 区 域 或 子 空间 ， 需 要 找到 一 条 决策 边界 把 属于 不 同类 别 的 点 分 开 ， 
其 中 最 具 代 表 性 的 是 支持 向 量 机 (Support Vector Machine, SVM) 和 神经 网 络 
(Neural Network，NNet) 。 本 章 实验 主要 选用 了 朴素 贝 叶 斯 和 文 持 向 量 机 两 种 分 
类 器 ， 关 于 它们 的 基本 原理 和 具体 实现 方法 ， 在 本 书 的 3.5 节 已 有 介绍 ， 此 处 
不 再 袭 述 。 

实验 1: 视觉 单词 库 构 造 方法 对 比分 析 

为 了 验证 利用 聚 类 算法 构造 视觉 单词 这 一 途径 的 有 效 性 ， 本 章 将 RNN 凝聚 
聚 类 算法 与 划分 方法 中 的 太平 均值 和 大 中 心 点 聚 类 应 用 于 同一 样本 集 ， 并 比较 
最 终 的 分 类 效果 。 该 实验 从 eo 幅 图 片 〈 小 汽车 图 像 ) 中 共 提 取出 19127 个 局 部 
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特征 〈 用 高 斯 差分 算 子 检测 ， 并 用 SIFT 描述 子 描述 为 128 维 的 模式 向 量 ) 用 以 
构造 视觉 单词 库 ， 利 用 支持 向 量 机 分 类 器 (线性 核 函 数 ) 对 小 汽车 图 像 和 建筑 
物 图 像 进 行 分 类 测试 ， 得 到 单词 库 规模 为 200 一 1800 之 间 的 正确 率 ， 该 评估 指标 
是 在 相等 错误 率 (EER) 下 的 分 类 效果 ， 对 图 像 进行 向 量 空间 模型 表示 时 用 的 
是 词 频 权 重 。 

如 图 6-7 所 示 ， 由 于 RNN 凝聚 取 类 算法 得 到 的 艇 相对 紧 致 ， 总 体 来 说 要 比 
划分 方法 中 的 两 种 聚 类 算法 性 能 好 。 关 于 视觉 单词 库 的 规模 ， 在 200—800 之 间 
随 着 视觉 单词 数量 的 增加 分 类 效果 得 到 了 明显 的 改善 ,在 800 Vb ERR RE 
法 相对 稳定 ,太平 均值 和 大 中 心 点 方法 则 会 出 现 波 动 ， 这 是 因为 划分 方法 经 常 
以 局 部 最 优 结束 。 
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视觉 单词 数量 
图 6-7 不 同 视觉 单词 库 构 造 方法 的 性 能 


实验 2， 图 像 数 量 和 分 类 方法 的 效果 分 析 

图 像 目标 分 类 效果 在 受到 视觉 单词 数量 影响 的 同时 ， 也 和 生成 视觉 单词 库 
所 用 的 图 像 数 量 有 关 。 本 实验 从 40 幅 图 像 提 取出 的 局 部 特征 是 10411 个 ，70 幅 
图 像 得 到 局 部 特征 21577 个 ， 而 100 幅 图 像 的 局 部 特征 数目 达到 39350 个 。 在 一 
定 规模 之 内 ， 从 姿态 各 异 的 图 像 目标 中 提取 越 多 的 局 部 特征 ， 构 造 出 的 视觉 单 
词 库 内 容 就 更 为 丰富 ， 并 且 相 应 的 视觉 单词 (原型 特征 ) 对 分 类 来 说 更 有 区 
分 性 。 

如 图 6-8 所 示 ， 实 验 采 用 视觉 单词 的 数量 为 800 个 ， 构 造 视觉 单词 库 的 
图 像 为 30 ~ 100 个 的 时 候 ， 用 朴素 贝 叶 斯 算法 和 支持 向 量 机 分 别 进行 分 类 的 
效果 。 可 以 看 出 ， 在 达到 60 幅 图 像 的 规模 之 后 ， 图 像 的 增加 不 再 带 来 分 类 
效果 的 明显 改善 ; 该 实验 的 结果 也 简单 证 实 了 支持 向 量 机 在 模式 分 类 中 的 优 































































































30 40 50 60 70 80 90 100 
图 像 数量 
图 6-8 不 同样 本 数量 和 分 类 方法 的 效果 


实验 3: 特征 权重 对 分 类 效果 的 影响 

采用 不 同 的 特征 权重 类 型 对 分 类 的 最 终 效 果 会 有 较 大 的 影响 ， 本 章节 将 对 
布尔 、 绝 对 词 频 (TF) 和 TF-IDF 三 种 特征 权重 计算 方法 进行 实验 对 比 。 实 验 采 
用 支持 向 量 机 (线性 核 函 数 ) 对 8 种 图 像 目标 分 别 进 行 二 分 类 ， 求 取 每 次 分 类 
的 查 准 率 和 查 全 率 。 由 于 样本 在 所 有 类 别 中 分 布 均匀 ， 计 算出 的 安平 均 查 准 率 
和 查 全 率 等 于 微 平均 查 准 率 和 查 全 率 。 如 图 6-9 的 RPC 曲线 所 示 ， 该 实验 中 布 
尔 权 重 效果 较 差 ， 而 TF 和 TF- IDF 权重 效果 相差 不 大 。 

由 于 用 0、1 来 代表 该 视觉 单词 是 否 在 图 像 目 标 中 出 现 ， 布 尔 权 重 无 法 体现 
视觉 单词 在 目标 中 的 作用 程度 ， 因 而 分 类 效果 显然 不 如 更 精确 的 TP 方法 。 这 从 
理论 上 讲 ，TF-IDF 作为 一 种 相对 词 频 权重 ， 应当 比 TF 的 性 能 好 ， 因 为 TF 虽然 
体现 了 视觉 单词 的 频率 ， 但 无 法 体现 低频 视觉 单词 的 区 分 能 力 一 一 有 些 视觉 单 
词 频率 虽然 很 高 ， 但 分 类 能 力 很 弱 (比如 大 多 数目 标 共有 的 特征 或 背景 特征 )， 
有 些 视觉 单词 虽然 频率 较 低 ， 但 分 类 能 力 却 很 强 。 但 是 从 实验 结果 可 以 看 出 ， 
TF- IDF 的 效果 不 够 理想 ， 这 一 方面 是 因为 图 像 目 标 分 类 中 训练 集 的 数目 并 不 够 
大 ， 本 章 在 一 次 实验 中 训练 样本 只 有 200 幅 图 像 ; 另 一 方面 很 有 可 能 是 图 像 目 
标的 向 量 空间 模型 表示 维度 较 低 ， 本 章 实验 采用 800 维 向 量 ， 这 远 远 低 于 文本 
分 类 中 所 用 的 模式 向 量 的 维度 。 

SEUS 4. 特征 选择 对 分 类 效果 的 改善 

特征 选择 在 降低 模式 向 量 维 数 的 同时 保留 了 对 分 类 有 用 的 特征 ， 本 章节 将 
通过 图 像 频率 (IF), y^ 统计 量 (CHI) 方法 、 信 息 增 益 (1G) 法 和 互信 息 
(MI). 法 对 图 像 特 征 进 行 筛选 并 进行 分 类 效果 对 比 。 实 验 采 用 文 持 向 量 机 (线性 
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图 6-9 采用 不 同 特征 权重 的 分 类 效果 





REL) 对 图 像 目标 进行 二 分 类 ， 在 目标 表示 时 用 绝对 词 频 计算 特征 权重 ， 通 
过 特征 选择 将 视觉 单词 的 数量 从 800 减少 至 450， 步 长 为 50， 测试 每 种 方法 在 相 

















等 错误 率 (EER) 下 的 分 类 正确 率 。 如 图 6-10 所 示 ， 在 将 特征 维 数 降 到 600 ~ 


700 时 大 多 数 方法 的 效果 最 好 ， 而 总 体 看 来 基于 互信 息 的 
好 。 基 于 图 像 频 率 的 特征 选择 方法 最 为 简单 易 行 ， 但 该 方法 直接 去 除 低频 特征 








对 分 类 效果 产生 不 利 影响 。 
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图 6-10 特征 选择 后 的 分 类 性 能 


实验 5$: 与 相关 文献 的 分 类 性 能 对 比 








近 几 年 ， 国 内 外 许多 学 者 都 在 广泛 关注 利用 局 部 特征 进行 图 像 目 标识 别 这 
一 人 研究 方向 。 为 了 更 为 直观 地 比较 Weber, Opelt 等 人 提出 的 图 像 目 标 分 类 算法 
(参见 参考 文献 [50], [127], [195]-[199]) 与 本 书 提出 的 算法 的 性 能 差异 ， 
进行 如 下 对 比 实验 。 为 了 相关 算法 保持 一 致 ， 实 验 所 用 的 摩托 车 和 小 汽车 CH 
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面 视 图 ) 两 类 图 像 都 选 自 Caltech KRE, 算法 的 正确 率 是 在 相等 错误 率 
(EER) 时 计算 所 得 的 。 从 表 6-3 可 以 看 出 ， 与 其 他 算法 的 最 佳 效果 相 比 ， 本 书 
算法 的 性 能 指标 稍 逊 于 Zhang 提出 的 方法 ， 总 体 看 来 正确 率 还 是 比较 高 的 ， 可 以 
说 明 本 书 算法 的 可 行 性 。 

表 6-3 相关 文献 算法 与 本 书 算法 对 比 












































Data Set Motorbikes Cars Rear 
Weber (2000) 88. 0% = 
Fergus (2003 ) 93. 3% 90. 3% 
Opelt (2004) 92.2% 三 

Thureson (2004) 93.2% 一 

Deselaers (2005) 一 98. 9% 
Zhang (2007) 98. 596 98. 396 
Leibe (2008) 94. 096 93. 996 
Our algorithm 95. 4% 96. 896 
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由 于 局 部 特征 性 能 优越 ， 其 携带 的 局 部 信息 可 以 对 图 像 的 内 容 进行 多 语义 
层次 的 描述 ， 本 章 尝 试 将 局 部 特征 应 用 于 图 像 目标 的 分 类 识别 。 为 此 ， 作 者 对 
国内 外 大 量 相关 科研 成 果 进 行 了 深入 了 解 ， 并 通过 RNN 凝聚 聚 类 算法 进行 视觉 
单词 库 的 构造 。 在 此 基础 之 上 ， 充 分 借鉴 了 文本 分 类 领域 的 向 量 空间 模型 进行 
目标 表示 ， 并 结合 信息 论 的 相关 技术 进行 特征 优化 ， 从 而 提出 了 一 种 基于 局 部 
特征 的 目标 分 类 方法 。 在 标准 图 像 库 上 的 实验 结果 证 明了 该 方法 的 有 效 性 和 和 鲁 
PETE. 

但 是 ， 本 章 提出 的 分 类 方法 ， 在 训练 和 识别 过 程 中 仅仅 考虑 将 整 幅 图 像 或 
已 分 割 好 的 区 域 作为 目标 ,没有 在 图 像 中 实现 目标 的 自动 检测 与 分 割 。 这 在 很 
大 程度 上 受 限于 向 量 空间 模型 不 考虑 特征 项 之 间 的 空间 关系 的 特点 ， 从 而 造成 
了 在 视觉 单词 库 的 构造 过 程 中 ， 特 征 位 置信 息 的 缺失 。 下 一 步 将 考虑 充分 利用 
局 部 特征 之 间 的 空间 关系 ， 进 行 目标 检测 与 分 割 的 相关 技术 研究 。 
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视 面 模型 的 目标 识别 


如 果 一 个 理论 本 身 具 有 持久 性 ， 那 么 最 初 给 它 带 来 

很 大 威胁 的 那些 反复 辩 难 随 着 时 间 的 推移 只 会 有 助 于 磨 

平 它 的 粗糙 之 处 ， 而 如 果 有 不 抱 偏 见 的 、 有 见地 的 、 真 

正平 实 的 人 士 从 事 这 一 工作 ， 甚 至 也 可 以 使 它 在 短 时 期 
内 至 于 所 要 求 的 精致 优美 。 

一 一 伊 曼 努 尔 . 康德 (1724—1804) 


7.1 引言 


视点 不 同 造成 目标 的 表象 差异 是 图 像 目 标识 别 领域 的 一 个 难点 。 在 同一 个 
场景 中 ， 视 点 的 变化 往往 使 得 物体 所 呈现 的 表象 有 所 不 同 ， 比 如 物体 的 大 小 比 
例 、 几 何 形状 、 物 体 的 不 同 侧面 等 ， 这 些 都 需要 进行 复杂 的 图 像 处 理 。 对 于 视 
点 远近 变化 造成 的 物体 大 小 不 同 ， 要 求 识别 系统 具有 某 种 尺度 不 变性 ， 虽然 通 
过 尺度 空间 技术 可 以 部 分 解决 这 个 问题 , 但是， 如 何 让 计算 机 自动 确定 相应 的 
尺度 来 识别 物体 ， 还 需要 相关 科研 人 员 的 进一步 研究 与 完善 。 
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而 由 于 观察 的 角度 发 生变 化 ， 同 一 物体 的 不 同 侧面 呈现 的 特征 往往 大 不 相 
同 ,甚至 产生 了 自身 遮挡 的 问题 ( 物体 的 某 个 部 分 谈 挡 了 该 物体 的 其 他 部 分 )。 
从 物体 自身 的 角度 来 说 ， 也 就 是 目标 的 不 同 姿态 造成 了 模型 库 的 模型 数量 激增 ， 
从 而 让 目标 识别 的 时 间 代 价 和 空间 代价 变 得 异常 昂贵 。 近 年 来 ， 利 用 三 维 模型 
建立 视 面 图 的 方法 取得 了 一 些 成 功 。 这 种 方法 先是 建立 以 三 维 目标 为 中 心 且 与 
视点 无 关 的 3D 模型 ， 然 后 对 视点 进行 限制 并 对 目标 进行 平行 投影 得 到 二 维 视 面 
模型 ， 将 目标 可 见 表面 相同 的 投影 合并 得 到 一 个 视 区 。 针 对 不 同 视 区 可 以 提取 
目标 在 不 同 姿态 下 的 特征 ， 可 以 较 好 地 解决 目标 姿态 变化 造成 的 目标 难以 识别 
的 问题 。 

贝 德 曼 !:2 认为 ， 当 人 们 看 物体 时 ， 会 将 其 分 割 为 一 些 简 单 的 几何 成 分 ， 称 
为 几何 元 素 (Geons) 。 他 提出 一 共有 36 种 这 样 的 基本 成 分 ， 并 认为 ， 有 了 这 些 
基本 的 单元 系列 ， 我 们 就 可 以 构建 众多 寻常 物体 的 心理 表征 。 他 在 物体 知觉 和 
言语 知觉 间 进 行 了 一 番 类 比 : 利用 英语 的 44 个 音素 (Phonemes) 或 声音 的 基本 
单位 ， 我 们 可 以 表现 出 英语 中 所 有 可 能 出 现 的 单词 (数量 可 达 几 十 万 ) 。 同 理 ， 
贝 德 曼 认 为 运用 基本 几何 元 素 也 可 以 表现 出 成 千 上 万 的 、 立 即 就 可 以 辨认 的 一 
般 物 体 。 

贝 德 曼 还 指出 ， 当 人 们 看 见 如 图 7-1 所 示 的 不 完整 的 图 画 时 ， 如 果 整 个 图 
中 包括 了 物体 的 各 个 顶点 一 一 即 这 些 片 段 还 可 以 辨认 出 基本 的 几何 元 素 的 话 ， 
如 图 7-1 中 间 一 栏 所 示 那 样 ， 那 么 人 们 还 是 能 够 确定 所 看 到 的 是 什么 物体 。 但 
当 这 些 顶 点 被 删除 以 后 (图 7-1 最 右边 的 一 栏 )， 知 觉 者 辨认 基本 几何 元 素 的 能 
力 会 受到 影响 ， 从 而 大 大 降低 (几乎 消减 至 零 ) 正确 辨认 物体 的 可 能 性 。 

角 点 是 一 种 图 像 的 局 部 形状 特征 ， 只 包含 图 像 中 大 约 0.05% 的 像素 点 ， 在 
没有 丢失 图 像 数据 信息 的 条 件 下 ， 最 小 化 要 处 理 的 数据 量 。 而 且 它 具有 旋转 、 
平移 、 缩 放 不 变性 ， 几 乎 不 受 光照 条 件 的 影响 ， 有 很 强 的 实用 价值 ， 已 经 被 广 
泛 应 用 于 图 像 融合 和 图 像 拼 接 中 ， 并 取得 了 一 系列 成 果 。 作 为 狭义 特征 点 ， 角 
点 不 仅仅 具有 位 置 (Position). 信息 ， 还 具有 如 下 的 其 他 信息 : 

1) 夹 角 (Subtended Angle) : 构成 角 点 的 二 边界 的 夹 角 ; 

2) FE (Orientation): 角 点 夹 角 的 角 平 分 线 方向 ; 

3) 边界 形状 (Edge Shape): 构成 角 点 的 边界 是 弧 形 还 是 直线 形 ; 

4) BLE (Sharpness): 衡量 边界 在 角 点 处 的 非 连续 性 程度 ; 

5) 对 比 度 (Contrast): 角 点 灰 度 与 背景 灰 度 的 差 值 ; 

6) 交点 类 型 (Junction Type) : 可 分 为 V 型 、 了 型 、T 型 、K 型 、X 型 等 。 
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图 7-1 目标 的 几何 元 素 〈 来 源 : WS, 1987 年 ) 


虽然 角 点 具有 如 此 丰富 的 特征 信息 ,但 是 在 实际 应 用 中 人 们 往往 只 用 到 了 
角 点 的 位 置信 息 ， 抛 弃 了 角 点 的 其 他 特征 。 显 然 仅 仅 采 用 位 置 特征 描述 角 点 是 
极 不 充分 的 ， 这 种 不 充分 描述 导致 了 角 点 在 图 像 匹 配 中 的 局 限 性 和 容易 产生 误 
匹配 。 如 果 对 角 点 进行 更 为 丰富 的 描述 ,不 仅 可 以 加 速 匹 配 过 程 中 的 收敛 过 程 
和 防止 误 匹 配 的 发 生 ， 也 会 对 在 描述 的 过 程 中 进行 选择 和 优化 ， 从 而 实现 目标 
分 类 。 
近年 来 ， 国 内 外 一 些 学 者 都 致力 于 利用 角 点 的 丰富 信息 构造 合适 的 特征 向 
， 初 步 应 用 于 目标 识别 和 图 像 分 类 。Baerveldt 55: A 7 针对 移动 机 器 人 的 需 
， 采 用 角 点 作为 识别 物体 的 局 部 特征 ， 设 计 了 一 个 物体 识别 和 定位 系统 。 
Dinesh 等 人 "通过 角 点 及 其 三 角 空间 关系 (TSR) 识别 局 部 遮挡 的 物体 。 周 振 
环 “ ”利用 角 点 构造 目标 的 多 维 距离 特征 向 量 ， 并 应 用 于 对 飞机 的 识别 。 王 觅 伟 
等 人 “提出 了 一 种 基于 角 点 特征 和 自 适 应 核 聚 类 的 目标 识别 方法 ， 对 遥感 图 像 
中 的 多 个 目标 进行 识别 。 

但 上 述 方法 只 用 到 了 角 点 的 位 置信 息 ， 抛 奔 了 角 点 的 其 他 信息 ， 仅 仅 利 用 

了 角 点 之 间 的 局 部 约束 ， 描 述 方法 过 于 简单 ， 在 实际 应 用 中 局 限 性 非常 大 。 本 
书 将 Hausdorff 距离 用 于 度 eee M RENT 
抗 诞 挡 能 力 ， 同 时 减少 了 识别 的 时 间 代 价 。 同 时 充分 利用 角 点 间 的 全 局 约束 和 
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局 部 约束 得 到 类 型 可 分 离 程度 较 高 的 特征 向 量 ， 并 根据 目标 的 角 点 空间 关系 进 
行 特征 的 选择 和 优化 ， 结 合 BP 网 络 强大 的 学 习 和 泛 化 能 力 ， 实 现 不同 姿 态 下 的 
目标 识别 。 





























7.2 三 维 物体 的 视 面 模型 表示 





视 面 图 (Aspect Graph) 表示 是 一 种 用 多 个 二 维 投 影 描 述 三 维 物体 的 方法 。 
视 面 图 方法 的 思想 最 早 是 由 Koenderink A 提出 的 ， 其 核心 概念 是 视 面 ， 它 
指 的 是 一 个 物体 在 拓扑 关系 上 等 价 的 所 有 投影 的 代表 性 表示 。 对 应 于 不 同 的 观 
察 空 间 ， 产 生 投 影 的 方法 分 为 两 种 类 型 : 一 种 是 把 所 有 可 能 的 视点 定义 在 以 目 
标 为 中 心 的 单位 球 上 ， 从 球面 上 的 一 个 点 定义 一 个 对 中 心 点 〈 目 标 ) 的 观察 方 
向 矢量 ， 用 以 产生 目标 的 正 交 投影 视图 。 另 一 种 方法 则 考虑 三 维 空间 中 的 所 有 
点 ， 目 标 视图 由 视点 的 透视 投影 得 到 。 

不 论 是 哪 一 种 投影 方法 ,都 可 以 通过 侦 然 视点 (Accidental Viewpoints) JÉ 
成 的 边界 将 视点 空间 划分 为 一 般 视点 ( General Viewpoints) 区 域 。 对 于 一 般 视 
点 ， 观 察 方向 的 变动 并 不 会 引起 物体 的 视图 变化 〈 至 少 拓扑 结构 不 会 变化 ) Br 
以 也 可 称 为 稳定 视点 ; 而 所 谓 偶然 视 点 则 相反 ,在 这 些 视 点 上 改变 观察 方向 将 
得 到 不 同 结构 的 视图 。 从 一 般 视 点 和 偶然 视点 所 得 到 的 视图 分 别称 为 一 般 视图 
和 偶然 视图 ， 从 一 般 视点 区 域 经 过 偶然 视点 边界 进入 另 一 个 一 般 视点 区 域 ， 称 
为 一 个 视觉 事件 (Visual Event) 。 

视 面 图 是 一 个 图 结构 (图 结构 的 概念 ， 参 见 附录 B. 1) ， 其 中 每 个 节点 代表 
目标 的 一 个 一 般 视图 ， 每 个 弧 表 示 两 个 相 邻 的 一 般 视图 之 间 的 偶然 视图 或 视觉 
事件 。 视 面 图 被 普遍 认为 是 计算 机 视觉 中 一 种 很 有 潜力 的 表示 方法 ， 也 已 经 研 
究 出 很 多 自动 计算 方法 ， 用 来 得 到 多 面体 、 曲 面 形体 甚至 具有 任意 连接 的 物体 
的 视 面 图 。 但 是 迄今 为 止 ， 对 视 面 图 方法 的 研究 大 都 停留 在 理论 阶段 ， 其 主要 
原因 在 于 : 视 面 图 的 数量 可 能 会 很 大 ， 因 为 对 视 面 的 检索 代价 太 大 ; 拓扑 结构 
可 以 用 数学 的 语言 定义 ,但 是 却 无 法 可 靠 地 从 图 像 中 恢复 。 

国防 科学 技术 大 学 的 席 学 强 ”和 陈 晓 飞 ”等 人 都 在 视 面 图 的 基础 上 对 建立 
一 般 三 维 目标 识别 模型 的 方法 进行 了 探索 。 他 们 采用 了 以 三 维 目标 为 中 心 的 且 
与 视点 无 关 的 3D 模型， 通过 对 视点 进行 限制 ， 并 对 目标 进行 平行 投影 得 到 二 维 
视 面 模型 。 通 过 假定 条 件 进行 相应 的 简化 ， 可 以 将 目标 视点 范围 限制 为 一 个 圆 ， 
称 之 为 观察 圆 (View Circle) 。 以 视点 到 目标 质心 的 方向 近似 作为 相机 在 该 视点 
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处 的 光 轴 方向 ， 投 影 平 面 与 此 方向 垂直 ， 用 一 组 给 定 的 图 像 平 面 上 的 正 轴 测 投 
影 (平行 投影 ) 来 表示 目标 的 二 维 视 面 。 将 目标 可 见 表面 相同 的 投影 合并 得 到 
一 个 视 区 (View Region) ， 视 区 就 是 由 具有 不 会 引起 物体 的 视图 变化 的 一 般 视点 
(稳定 视点 ) 构成 的 、 被 偶然 视点 包围 的 区 域 ， 视 区 所 包含 视 面 的 数目 为 视 区 的 
长 度 。 如 此 一 来 ， 就 可 以 针对 不 同 视 区 提取 目标 在 不 同 姿态 下 的 特征 ， 在 此 基 
础 上 解决 目标 姿态 变化 造成 的 目标 难以 识别 的 问题 。 

图 7-2 所 示 为 采用 基于 分 裂 - 合并 的 层次 聚 类 方法 得 到 的 三 维 目 标的 二 维 视 
区 模型 ， 图 中 右边 的 二 维 图 像 为 目标 的 视 区 的 原型 视 面 。 按 照 目标 的 复杂 程度 
不 同 ， 可 以 将 其 用 6 ~ 10 个 视 区 来 表示 。 通 过 将 相似 的 视 面 合并 为 视 区 并 用 原 
型 视 面 来 表示 ， 减 少 视 面 的 数量 ， 提 高 了 检索 和 识别 的 效率 。 
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图 7-2 限制 视点 的 三 维 目标 的 视 区 模型 OR: REK, 2004 年 ) 


本 章 也 采用 了 类 似 的 简化 建 模 方法 得 到 的 实验 所 需 的 二 维 视 面 模型 : 首先 
建立 以 三 维 目标 为 中 心 的 且 与 视点 无 关 的 3D 模型 ， 然 后 对 视点 进行 限制 并 对 目 
标 进 行 平行 投影 得 到 二 维 视 面 模型 。 如 图 7-3a 所 示 ， 以 单位 球 上 目标 正 上 方 的 
视点 为 基准 视点 ， 从 该 视点 产生 的 正 交 投影 视图 为 基准 图 像 ， 基 准 轴 线 穿 过 基 
准 视 点 和 目标 中 心 点 。 这 样 一 来 ， 每 一 个 视点 和 目标 中 心 的 连 线 与 基准 轴线 呈 
Jefa 0 (锐角 或 直角 )， 定 义 该 夹 角 0 为 视角 。 视 角 相 同 的 视点 同 在 一 个 观察 贺 
上 ,目标 姿态 的 变化 程度 随 着 视角 的 增 大 而 加 剧 ， 这 样 就 产生 了 三 维 物体 的 二 
维 视 面 图 。 图 7-3a 中 用 作 示 例 的 观察 圆 (用 红色 表示 的 赤道 线 ) 的 视角 为 90°， 
图 7-3b 所 示 为 Su27 飞机 模型 在 不 同 视点 的 投影 图 。 
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图 7-3 3D 模型 的 2D 投影 图 表示 
a) 在 单位 球 上 进行 投影 b) Su27 在 不 同 视点 下 的 投影 图 

















7.3 基于 角 点 特征 的 目标 匹配 


对 目标 最 简单 的 描述 方式 就 是 视 其 角 点 为 一 个 点 集 ， 它 含有 和 角 点 的 数目 和 
角 点 的 位 置信 息 。 国 内 学 者 周 振 环 提出 了 通过 角 点 的 多 维 距离 特征 向 量 进行 
目标 识别 方法 ， 多 维 距 离 向 量 就 是 通过 计算 每 个 角 点 到 其 余 角 点 的 距离 得 到 的 
一 组 距离 数值 。 这 种 方法 比较 简单 ， 速 度 较 快 ， 但 只 具备 平移 和 旋转 不 变性 ， 
不 具有 尺度 不 变性 。 王 向 军 等 人 ”进一步 提出 了 通过 特征 角 点 构造 特征 描述 的 
方法 ,特征 角 点 即 目标 图 像 中 最 具有 代表 性 、 能 简洁 反映 目标 特征 的 角 点 。 该 
方法 虽然 解决 了 尺度 变化 下 的 识别 问题 ,但 是 仅 限于 对 飞机 的 识别 ， 灵 活性 不 
强 ， 也 不 具备 对 局 部 遮挡 目标 的 识别 能 

np, 良好 的 特征 要 具有 区 别 性 、 可 靠 性 、 独 立 性 和 数目 小 这 四 个 特 
ARTS) ， 这 也 就 意味 着 我 们 需要 对 角 点 点 集 做 进一步 处 理 ， 使 其 不 受 待 识别 目标 
的 大 小 、 人 位置、 方位 的 影响 ， 并 适用 于 大 多 数目 标 种 类 。 


7.3.1 利用 基准 角 点 进行 目标 匹配 


对 多 维 距 离 向 量 这 种 最 具 代 表 性 的 角 点 描述 方法 进行 深入 分 析 后 ， 不 难 发 
现 ， 数 量 繁多 的 角 点 不 仅 增加 了 运算 时 间 ， 同 时 也 给 多 帧 图 像 中 的 目标 匹配 人 带 
来 了 困难 ， 尤 其 是 有 噪声 干扰 和 在 目标 姿态 变化 的 情况 之 下 。 为 了 达到 更 加 高 
效 、 灵 活 的 识别 效果 ， 本 书 希 望 能 够 选择 出 目标 图 像 上 最 具有 代表 性 的 角 点 ， 
根据 这 些 基 准 角 点 的 位 置信 息 测量 物体 ， 并 通过 测量 值 来 识别 目标 。 

以 军事 目标 飞机 为 例 ， 测 量 一 个 飞机 可 以 利用 的 最 显著 的 信息 就 是 机 头 部 
分 、 两 辟 部 分 和 机 尾部 分 的 角 点 ， 以 及 它们 和 飞机 重心 的 位 置 关系 。 飞 机 重心 
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的 计算 公式 如 下 : 
ze = D alay) [E 16] 
x,VE x,yeR (1-1) 
va È GI > 1(,y)l 


式 中 ，(xc，yc) 是 重心 点 G 的 位 置 坐标 , Ix, y) 是 像素 点 (x, y) 的 灰 度 值 。 
我 们 可 以 通过 计算 每 个 角 点 的 相对 重心 的 重心 和 矩 ， 并 选择 重心 矩 最 大 的 角 点 作 
为 第 一 基准 角 点 Py (xu. yu): 


Mo, = DL Gu x + Gr, - y)? MG, y) (7-2) 


cec 





Xpl yl EM, ou Pic EC (7-3) 
式 中 ，C 为 角 点 点 集 ， 其 包含 的 角 点 数目 为 n。 
通过 重心 点 C 和 已 可 以 得 到 飞机 的 一 条 基准 轴线 ， 显 然 ， 飞 机 两 愤 上 的 角 
点 都 位 于 这 条 轴线 的 两 侧 。 于 是 这 条 轴线 就 把 机 豆角 点 点 集 划 分 为 两 个 子 集 ; 
(xi Ho (yo ya) = Oa "yi xm.) >0 














jt =1,2,---,n-1 (7-4) 
(Xy =xe) (Ya 7 Ye) - (Yn - yc) (x4 7 x5) «0 


MPE E BS IEE FR b n] DAE COS E ES 12€ Af HZ Toc E FO 3 —56 — AE VE ff 
A Plan, ya) 和 第 三 基准 角 点 已 (x。，y。) 。 角 点 与 基准 轴线 的 距离 可 以 由 以 
下 公式 计算 得 到 
dra 7 ye) (xa 786) + Ga 7x) (ye 7 Y | 





D, 1.2,…, -1 (7-5) 





(yu -ys) + (x 一 zc) 
第 四 基准 角 点 PL Gs, ya) 被 定义 在 机 尾 ， 它 和 第 一 基准 角 点 已 分 别 位 于 
基准 轴线 的 两 端 ， 也 就 是 重心 点 G 的 两 侧 。 如 果 P, 满足 以 下 条 件 : 














Np —*c | Xm Xe 
一 Xa Ya t Ve + x; |>0 (7-6) 
Ya ye” CAES y est 
则 P, 将 满足 
Xa —*c | X» ~ Xe ) 
-wy Ya +| yg +2 xg |S0 (7-7) 
Yn-Ye ^ P eT yace" 
否则 ， 必 然 有 
Xn ~ Xe | Xm —*c 
一 Xa Ya 十 | Ye 十 x; |>0 (7-8) 
Yn-Ye ^ A T aye" 


在 目标 识别 过 程 中 ， 特 征 空间 优化 的 目的 是 用 最 少 的 描述 获得 目标 形状 上 
最 “本 质 ” 的 特征 。 通 过 每 个 基准 角 点 到 重心 点 G 的 距离 ， 可 以 定义 出 一 个 区 
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分 度 较 高 的 描述 子 : 
$25, xS, (7-9) 
S = [Lol 《xm -we) *(Xa Ye)" (7-10) 
1 = = 2 i 
|La | (X, -x;) *(ya Yo) 
s, = bal (X. = + ra 7 Yo) (7-11) 





(xa -xs) 十 (Yp -= yc)" 
如 图 7-4 所 示 , FA SUSAN 算法 检测 出 了 F16 战斗 机 图 像 的 所 有 角 点 ， 并 按 
照 上 述 方法 获得 了 四 个 基准 角 点 ， 从 而 构造 出 了 特征 描述 子 5。 








a) b) c) 
图 7-4 飞机 图 像 的 基准 角 点 提取 
a) F16 战斗 机 b) 角 点 (SUSAN) c) 4 个 基准 角 点 



































7.3.2 基于 主 分 量 与 Hausdorff 距离 的 匹配 算法 


REAR ( Hotelling) 提出 了 一 个 可 以 去 掉 一 个 随机 向 量 中 各 元 素 间 相关 
性 的 线性 变换 ， 并 把 它 称 作 “ 主 分 量 法 ”。 些 后 ， 卡 胡 南 (Karhunen) 和 列 夫 
(Loeve) 提出 了 一 种 针对 连续 信号 的 类 似 的 变换 。 这 种 方法 派生 出 了 一 种 离散 
图 像 变 换 的 方法 。 

我 们 根据 角 点 的 坐标 可 以 生成 二 维 向 量 ， 可 以 把 这 些 二 维 向 量 当 成 原理 中 
的 随机 向 量 X= (a, 565) 处理， 其 中 a 和 5 是 角 点 关于 x 轴 和 %, 轴 的 坐标 值 。 总 
体 的 均值 向 量 (边界 点 ) 可 以 通过 天 个 样本 向 量 ( 角 点 ) 来 估计 : 








m, = EX) 19307 (7-12) 
总 体 向 量 的 协 方差 矩阵 可 以 以 如 下 方式 用 样本 近似 得 到 : 
Cy = ECX -mp X -mr ee —mymy! (7-13) 


因为 Cy 是 实 对 称 的 ， 找 到 一 组 n 个 标准 正 交 特征 向 量 总 是 可 能 的 。 令 e, 和 
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jel, 2，…，mn 1。 令 4 为 一个 由 Cv 的 特征 向 量 组 成 其 行 元 素 的 矩阵 ， 并 进行 
排序 ， 使 4 的 第 一 行为 对 应 最 大 特征 值 的 特征 向 量 ， 而 最 后 一 行为 对 应 最 小 特 
征 值 的 特征 向 量 。 假 设 把 4 作为 将 X 的 向 量 映 射 到 用 y 代表 的 向 量 的 变换 矩阵 ， 
就 得 到 了 霍 特 林 变 换 的 表达 式 ; 
y=A(X -mx) (7-14) 
使 用 式 (7-14) 的 实际 结果 是 需要 设置 一 个 新 的 坐标 系统 ， 这 个 坐标 系统 
以 角 点 总 体 的 质心 〈 均 值 向 量 的 坐标 ) 为 原点 ， 以 C, 的 特征 向 量 所 指 方向 为 轴 
的 方向 ， 如 图 7-5b 所 示 。 这 个 坐标 系统 清晰 地 显示 出 式 (7-14) 所 进行 的 变换 
是 一 种 旋转 变换 ， 这 种 变换 使 用 特征 向 量 将 数据 排列 起 来 ， 如 图 7-5e 所 示 。 实 
际 上 ， 这 种 排列 正好 是 数据 去 相关 的 机 理 。 另 外 ， 由 于 特征 值 沿 着 C 的 主 对 角 
线 排列 ，》, 是 沿 着 特征 向 量 e 的 分 量 y 的 方差 ， 这 两 个 特征 向 量 是 正 交 的 。 由 于 
这 个 明显 的 原因 ，y dlc IOS ACER 。 


x24 X24 






































































































































x] x) 


a) b) c) 


图 7-5 用 主 分 量 法 将 目标 沿 着 自身 的 本 征 轴 对 准 
a) 一 个 目标 b) 特征 向 量 c) 旋转 目标 


使 用 主 特征 向 量 排列 角 点 的 概念 在 图 像 描述 中 起 着 十 分 重要 的 作用 。 正 如 
前 面 提 到 的 ， 目 标的 描述 对 于 大 小 变化 、 平 移 和 旋转 变化 本 应 是 尽 可 能 独立 的 。 
使 用 目标 的 主轴 校正 的 能 力 为 消除 旋转 变化 的 影响 提供 了 一 种 可 靠 手 段 。 特 征 
值 是 沿 着 本 征 轴 的 方差 ， 并 可 用 于 尺寸 的 归 一 化 。 平 移 带 来 的 影响 可 以 通过 将 
角 点 的 均值 设 定 为 中 心 来 解决 。 
Huttenlocher $% AV! JE H HY Hausdorff 距离 是 用 来 描述 两 组 点 集 之 间 相 似 程 
度 的 一 种 度量 ， 是 集合 与 集合 之 间距 离 的 一 种 定义 形式 。 它 与 许多 其 他 匹配 算 
法 不 一 样 ， 它 并 不 要 求 目 标 与 模板 的 简单 一 致 ， 而 是 可 以 针对 部 分 匹配 作出 良 
好 的 反应 ， 因 此 它 本 号 就 具有 一 定 的 抗 遮挡 能 力 。 对 有 限 点 集 4 = la, ay, 
a| 和 B= {b,, b, =, b], A, 如 之 间 的 Hausdorff 距离 定义 如 下 : 
H(A,B) 2 max| A(A,B) ,h(B,A) | (7-15) 
h(A,B) =max + min | a-b || (7-16) 
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h(B,A) =max * min || b-a | (7-17) 
式 中 , H(A, B) JE h(A, B), ACB, A) 中 较 大 的 那 一 个 , RNA, B 之 间 的 
Hausdorff FERS; h(A, B) 称 为 点 集 4 SI B 的 有 向 Hausdorff 距离 ， 即 点 集 4 中 的 
每 个 点 a, 到 B 集中 与 其 距离 最 近 的 点 5 之 间 的 距离 |, — b; 上 | 进行 排序 ， 取 这 样 
的 距离 中 的 最 大 值 作为 h(4，B) 的 值 ， 同 理 可 得 h(B，4); |" 表示 某 种 距 
离 范 数 ， 如 欧 氏 距离 。 如 图 7-6 所 示 ，Hausdorff 距离 表征 了 两 个 点 集 之 间 的 最 
大 不 相似 程度 。 





e! ec 
*n ^" e^ *s "s 
e a OB E " e 
S 
a) b) 


E] 7-6 Hausdorff 距离 示意 图 
a) 表示 点 集 A 到 B 的 有 向 Hausdorff 距离 b) 表示 点 集 B 到 A 的 有 向 Hausdorff 距离 
在 本 书 的 应 用 中 ， 为 了 降低 噪声 的 影响 ， 我 们 使 用 部 分 Hausdorff 距离 ， 其 
定义 如 下 : 





Hix(A,B) 2 max[ A, (A,B) ,h,(B,A)] (7-18) 
h,(A,B) =L", + min |a -b | (7-19) 
hy(B,A) =K + min || b-a|| (7-20) 

x acA 


at, Hi (A, B) DÈ h, (A, B) Whg (B, A) 中 较 大 的 一 个 。h， (A, B) 
虽然 还 是 按照 lo - b; ||. ( 即 4 中 的 每 个 点 w 到 B PSE BE EEN b YY 
距离 ) HHF, BRER h (A, B) 那样 取 全 局 最 大 值 ， 而 是 取 第 工 个 值 (1 
«L«q, 为 4 集中 点 的 数目 ) hy (B, A) 同 理 可 得 。 

通过 角 点 检测 算法 可 以 得 到 待 匹 配 目标 和 原型 的 两 组 特征 点 集 ， 则 目标 匹 
配 问题 就 转化 为 特征 点 匹配 问题 。 因 为 Hausdorff 距离 的 适用 形式 限制 在 有 限 点 
集 内 ， 所 以 非常 适合 度量 特征 点 集 的 相似 性 。 而 角 点 点 集 经 过 主 分 量 法 处 理 后 ， 
消除 了 其 对 尺寸 、 位置、 方位 的 依赖 性 ， 就 可 以 作为 Hausdorff 距离 的 匹配 元 素 ， 
对 这 些 元 素 的 相似 性 进行 度量 并 将 此 度量 值 作 为 目标 与 原型 相似 性 的 依据 ， 如 
此 一 来 ， 大 大 降低 了 算法 的 运算 复杂 度 ， 并 减少 了 噪声 对 识别 效果 的 影响 。 
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7.4 基于 角 点 标记 图 的 目标 分 类 


统计 模式 识别 把 模式 类 看 成 是 用 某 个 随机 向 量 实现 的 集合 ， 是 对 模式 的 统计 
分 类 方法 ， 又 称 决策 理论 识别 方法 。 模 式 即 描绘 子 的 组 合 ， 模 式 类 是 一 个 拥有 某 
些 共同 性 质 的 模式 秘 ， 实 践 中 的 三 种 常用 模式 组 合 是 向 量 (用 于 定量 描述 ) 、 串 和 
树 (用 于 结构 描述 )。 而 模式 向 量 是 统计 模式 识别 最 为 常用 的 表示 形式 ， 其 元 素 是 
根据 什么 量 的 描绘 子 进行 选择 的 ， 对 于 目标 识别 的 最 终 效 果 有 很 大 影响 。 


7.4.1 角 点 特征 的 优化 技术 


确定 合适 的 特征 空间 是 设计 目标 识别 系统 的 一 个 十 分 关键 的 问题 。 如 果 所 
选用 的 特征 空间 能 使 同类 物体 分 布 具有 紧 致 性 ， 不 同类 别 物 体 彼 此 分 开 ， 即 各 
类 样品 能 分 布 在 该 特征 空间 中 彼此 分 隔 开 的 区 域内 ， 这 就 为 分 类 需 设 计 提 供 良 
好 的 基础 。 反 之 ， 如 果 不 同 类 别 的 样品 在 该 特征 空间 中 混杂 在 一 起 ， 再 好 的 设 
计 方 法 也 无 法 提高 分 类 顺 的 准确 性 。 对 特征 空间 进行 优化 有 两 种 基本 方法 ， 一 
种 是 特征 选择 ， 即 对 原 特 征 空间 进行 删 选 ， 另 一 种 就 是 特征 的 组 合 优化 ， 即 通过 
一 种 映射 变换 改造 原 特 征 空间 。 

通过 对 角 点 检测 结果 的 仔细 观察 和 分 析 ， 我 们 发 现 ， 过 于 密集 的 角 点 往往 
会 局 限于 个 例 的 细节 变化 ， 在 训练 分 类 器 的 时 候 容易 产生 过 拟 合 现象 。 而 且 有 
一 些 点 是 图 像 获取 或 传输 中 产生 的 噪声 ， 直 接 对 目标 的 特征 描述 产生 干扰 。 因 
此 ， 为 了 减少 分 类 需 的 训练 复杂 度 、 增 强 系统 的 鲁 棒 性 ， 对 特征 空间 进行 适度 
的 优化 ， 是 十 分 必要 的 。 

对 于 直线 投影 法 检测 到 的 角 点 ， 按 照 在 轮廓 线 上 的 顺序 ， 如 果 一 个 角 点 与 其 前 
后 两 个 角 点 的 距离 很 近 ， 且 这 三 个 相 邻 的 角 点 和 形 心 的 距离 相等 或 接近 ， 则 该 角 点 
所 携带 的 信息 与 前 后 角 点 有 元 余 ， 可 以 删 选 掉 。 于 是 我 们 可 以 通过 角 点 和 质心 的 空 
间 关 系 ， 计 算出 每 个 角 点 对 于 整个 形状 特征 的 重要 程度 ， 并 据 此 对 角 点 进行 般 选 : 
[di -dl+ld-d | D-1 + Dives 
=, a +, D 
式 中 ，d, 表 示 第 i 个 角 点 到 形 心 的 距离 ，D,_, ,表示 第 il SARA i TAR 
(按照 角 点 在 轮廓 线 上 的 顺序 ) 的 距离 ，d,,. 是 角 点 到 形 心 的 最 大 距离 ，D,, 是 
相 邻 两 个 角 点 间 的 最 大 距离 ，w 和 w, 是 该 项 的 权重 。 

由 于 SUSAN 算法 不 依赖 于 目标 分 制 得 到 的 轮廓 信息 ， 所 以 无 法 通过 跟踪 轮 
廓 来 得 到 角 点 的 顺序 ， 并 依 此 计算 每 个 角 点 的 权重 ， 进 行 特征 空间 的 优化 。 但 
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是 ,我 们 依然 可 以 从 角 点 负载 信息 量 的 角度 考虑 ， 将 非常 密集 的 角 点 群 用 一 个 
点 来 代替 ， 保 留 孤立 、 信 息 量 巨大 的 角 点 ， 从 而 在 优化 特征 空间 的 同时 保持 了 
目标 的 基本 几何 形状 。 

聚 类 分 析 是 机 器 学 习 领 域 的 一 个 重要 研究 方向 ， 目 前 存在 大 量 的 聚 类 算法 ， 
算法 的 选择 取决 于 数据 的 类 型 、 聚 类 的 目的 和 应 用 。 本 书 选用 凝聚 的 层次 聚 类 
方法 "对 原 特征 空间 进行 组 合 优化 ， 以 求 出 一 组 对 分 类 识别 更 为 有 效 的 特征 。 
这 种 自 底 向 上 的 策略 首先 将 每 个 角 点 作为 一 个 艇 ,然后 将 相似 度 最 大 的 原子 簇 
合并 ， 直 至 达到 某 个 希望 的 簇 的 数目 。 艇 间 相 似 度 是 通过 计算 平均 相似 度 (一 
个 秘 中 所 有 对 象 和 男 一 簇 所 有 对 象 之 间 的 相似 度 的 平均 ) 得 到 的 : 

sim(C C = TAAT 2 simG, p) (7-22) 


| C, | | C, een 
其 中 ， 相 似 度 的 度量 采用 的 是 欧 氏 距离 。 最 终 ， 用 每 个 簇 的 重心 GR BOTA B 
点 的 平均 值 ) 来 代表 整个 艇 。 两 种 角 点 检测 算法 及 其 相应 的 特征 空间 优化 方法 


的 效果 ， 如 图 7-7 所 示 。 











2:0.00 








F22 的 3D 模 型 2D 投 影 图 轮廓 线 
a) b) c) 
直线 投影 法 提取 角 点 筛选 掉 的 角 点 保留 的 角 点 
d) e) f) 
a. . 
[| he 

Tea 

SUSAN 角 点 检测 层次 聚 类 组 合 优化 的 结果 


g) h) i) 
Ed 7-7 对 角 点 特征 空间 进行 优化 设计 
(d) ~e) 是 进行 特征 选择 , g) ~i) 是 进行 特征 的 组 合 优化 ) 
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7.4.2 角 点 标记 图 的 生成 方法 


标记 图 是 一 种 一 维 函 数 的 边界 表达 方法 ， 其 典型 的 生成 方法 是 将 从 质心 到 
边界 线 的 距离 转化 成 一 个 角度 函数 ， 如 图 7-8 所 示 。 虽 然 其 生成 方法 多 种 多 样 ， 
但 基本 思想 都 是 ,假设 一 维 函 数 表达 会 比 原来 的 二 维 边界 容易 ， 因 此 使 用 一 维 
函数 简化 边界 的 表达 …” 。 本 书 提出 的 角 点 标记 图 将 标记 图 的 基本 思想 应 用 于 构 
造 角 点 特征 的 过 程 中 ， 并 在 保存 目标 基本 信息 的 同时 消除 其 对 尺寸 和 旋转 的 依 
赖 性 ， 使 得 该 特征 具有 平移 不 变形 、 比 例 不 变性 和 旋转 不 变性 。 
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X X 30, 5x 3 7m 5 X x on, Sx 3m 7m 5, 
4 faq p a A i 4.10074 T2427 
0 0 
a) b) 


图 7-8 距离 -角度 的 函数 标记 图 
a) 同形 的 标记 图 b) 正方 形 的 标记 图 





假设 经 过 特征 选择 或 特征 的 组 合 优 化 之 后 ， 最 终 得 到 了 N 个 角 点 ， 则 特征 
向 量 可 以 初步 表示 为 下 列 形 式 : 

x = [x,a] (7-23) 
这 里 ， 每 个 分 量 ,代表 第 i 个 角 点 到 质心 的 距离 。 

这 种 模式 向 量 的 生成 方法 依赖 于 旋转 和 比例 缩放 变换 。 需 要 寻找 一 种 方 
法 ,选择 相同 的 起 点 而 忽略 图 形 的 方向 ， 实 现 旋转 变换 的 归 一 化 。 可 以 选择 
距离 质心 最 远 的 点 作为 起 点 ， 如 果 这 一 点 与 我 们 关心 的 每 个 图 形 的 旋转 畸变 
无 关 ， 或 者 按照 距离 质心 的 远近 对 角 点 进行 排序 ( 角 点 在 轮廓 上 的 次 序 缺 
失 的 情况 下 ) 。 由 于 图 形 斥 二 变化 会 导致 对 应 特征 向 量 的 分 量 值 的 变化 ,将 
这 种 结果 进行 归 一 化 的 一 种 方法 就 是 ， 对 所 有 分 量 值 进 行 换 算 ， 以 便 向 量 的 
各 个 分 量 有 相同 的 值 域 ， 比 如 [0，1] 。 这 种 方法 的 主要 优点 是 简单 易于 实 
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现 ， 当 然 它 也 有 潜在 的 缺陷 ， 即 对 所 有 分 量 的 缩放 仅 依赖 于 两 个 值 : 最 小 值 
和 最 大 值 。 如 果 图 形 是 带 有 噪声 的 ， 这 种 依赖 性 就 可 能 成 为 从 对 象 到 对 象 的 
误差 来 源 。 














7.5 实验 结果 与 分 析 


1. 实验 环境 

(1) 硬件 环境 

普通 DELL 台式 计算 机 一 台 ， 基 本 配置 为 P(R) D/3.4GHz/1. 00G/ 
160G/19in, 

(2) 软件 环境 

WindowsXP 操作 系统 ，Visual Studio C + +6.0 开发 平台 ，OpenCV 函数 库 。 

2. 实验 数据 来 源 

普林斯顿 大 学 三 维 模型 库 (Princeton Shape Benchmark ) 229 经 常 被 用 来 研究 
与 3D 模型 相关 算法 的 优 劣 。 这 个 公用 平台 中 提供 了 多 达 1800 个 三 维 模型 作为 
竺 识别 目标 ， 如 图 7-9 所 示 ， 可 以 对 其 进行 不 同 视角 的 投影 拍摄 来 建立 一 个 符 
合 自 己 实 验 要 求 的 目标 图 库 。 




















图 7-9 普林斯顿 大 学 三 维 模型 库 示 例 











本 书 从 普林斯顿 大 学 三 维 模型 库 中 挑选 出 六 个 飞机 模型 、 一 个 T60 坦克 模 
型 、 一 个 小 汽车 模型 用 来 衡量 目标 识别 系统 的 性 能 ， 其 中 六 个 飞机 模型 的 型 号 
依次 是 FI16，F117，M1237，747G，Fl1，F2。 图 7-10 就 是 采用 7.2 节 提 出 的 方 
法 获得 的 基准 视点 下 的 3D 模型 2D 投影 图 。 
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图 7-10 3D 模型 的 2D 投影 图 表示 























实验 1:, 利用 基准 角 点 进行 目标 匹配 

由 于 基准 角 点 的 提出 是 针对 飞机 图 像 的 ， 本 实验 选用 了 六 个 飞机 模型 在 不 
同 视 点 下 的 投影 图 : 在 每 个 模型 的 单位 球 上 ， i1 1 
5°、 经 度 取 固 定 值 (与 机 身 最 长 轴线 垂直 ) 进行 一 次 投影 ， 每 个 模型 都 得 到 7 
幅 投 影 图 ， 样 本 数量 共计 6 x7 =42。 ep Rui ery nel 
图 作为 模板 ， 并 通过 F16 战斗 机 的 所 有 样本 对 其 进行 相似 性 度量 ， 表 7-1 是 
F-16 战 斗 机 投影 图 (不 同 视 点 下 ) 与 其 他 飞机 投影 图 (基准 视点 下 ) 的 特征 描 
述 子 S 的 比例 。1 表示 样本 与 模板 完全 吻合 ， 数 值 与 1 做 差 的 绝对 值 越 大 则 表示 
样本 与 模板 越 不 匹配 。 

表 7-1 利用 基准 角 点 进行 目标 匹配 的 相似 度 结果 
























































模型 
F16 F1 F2 M1237 741G F117 
0° 1. 000 0. 678 0. 945 0. 763 0. 782 0. 675 
58 0. 974 0. 696 0. 920 0. 744 0. 761 0. 693 
10° 0. 944 0.719 0. 892 0. 721 0. 738 0. 715 
15° 0. 943 0.719 0. 891 0. 720 0. 738 0. 715 
20° 0. 942 0. 721 0. 889 0. 719 0. 736 0. 717 
25? 0. 903 0. 751 0. 853 0. 689 0. 706 0. 747 
30? 0. 930 0. 729 0. 879 0. 710 0. 727 0. 726 














由 实验 结果 可 以 看 出 ， 基 准 角 点 作为 目标 图 像 中 最 具有 代表 性 、 能 简洁 反 
映 目 标 特征 的 角 点 ， 抓 住 了 目标 形状 上 最 “本 质 ” 的 特征 。 通 过 每 个 基准 角 点 
到 重心 点 G 的 距离 ， 也 可 以 定义 出 一 个 具有 平移 、 旋 转 、 尺 度 不 变性 描述 子 。 
Ep Mc mc ee ee 或 者 说 各 
个 角 点 的 作用 不 像 习 机 有 如 此 显著 的 差别 。 这 就 导致 了 这 种 特征 描述 子 只 能 在 
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特定 目标 (例如 飞机 ) 的 识别 中 发 挥 作用 。 灵 活性 不 强 ， 也 不 具备 对 局 部 遮挡 
目标 的 识别 能 力 。 

实验 2: 基于 主 分 量 与 Hausdorff 距离 的 目标 匹配 

本 实验 为 了 验证 基于 主 分 量 与 Hausdorff 距离 的 目标 匹配 算法 的 通用 性 和 重 
棒 性 ， 将 八 个 三 维 模型 在 不 同 视点 下 的 投影 图 : 在 每 个 模型 的 单位 球 上 ， 从 北 
纬 90° 到 北纬 60° ， 纬 度 每 隔 5°、 经 度 取 固定 值 (与 机 身 最 长 轴线 垂直 ) 进行 一 
次 投影 ， 每 个 模型 都 得 到 7 幅 投影 图 ， 样 本 数量 共计 8 x7 =56。 我 们 使 用 每 个 
三 维 模型 (如 Fl117 战斗 机 、 汽 车 、 坦 克 等 ) 在 基准 视点 的 投影 图 作为 模板 ， 并 
通过 Fl6 战斗 机 的 所 有 样本 对 其 进行 相似 性 度量 。 表 7-2 是 F16 战斗 机 投影 
(不 同 视点 下 ) 与 其 他 三 维 模型 投影 图 (基准 视点 下 ) 的 Hausdorff 距离 ， 距 离 
为 0 表示 样本 与 模板 完全 吻合 ， 距 离 越 大 则 表示 样本 与 模板 越 不 匹配 。 

表 7-2 目标 与 各 个 模型 的 Hausdorff 距离 















































模型 

F16 F117 M1237 741G F1 F2 T60 car 
0° 0. 000 18. 385 48. 104 15. 232 14. 036 18. 788 68. 154 69. 584 
Sa 6. 325 18. 028 49. 578 16. 763 13. 416 18. 385 70. 093 71. 568 
10° 10. 000 17. 804 50. 329 17. 720 15. 232 15. 811 71. 063 72. 560 
15° 12. 166 18. 000 51. 088 18. 682 15. 264 18. 682 72. 035 73.552 
20? 15. 556 19. 000 52. 631 18. 385 17. 720 17. 464 73. 980 75. 538 
25° 15. 556 19. 925 52. 631 21. 213 20. 396 18. 439 73. 980 75. 538 
30° 17. 117 22. 023 52. 631 25. 179 24. 187 21. 024 73. 980 75. 538 


























实验 结果 证 明 ， 基 于 主 分 量 与 Hausdorff 距离 的 目标 匹配 算法 能 够 很 好 地 识 
别 出 不 同类 别 的 目标 ， 即 非常 明显 地 区 分 出 飞机 和 和 车辆 ， 即 使 视点 发 生 了 高 达 
30? 的 变化 。 但 进一步 对 同类 目标 的 识别 效果 相对 逊色 ， 比 如 ，Fl16 在 基准 视点 
与 其 在 30° 视 点 的 投影 图 之 间 的 距离 显然 要 比 F16 与 Fl 9X F2 在 基准 视点 的 投影 
图 距离 要 大 ， 这 样 就 非常 容易 产生 错误 的 匹配 。 可 见 ， 在 视点 发 生变 化 的 情况 
下 ， 基 于 Hausdorff 距离 的 目标 匹配 方法 对 于 不 同 种 类 的 刚性 目标 有 着 很 好 识别 
效果 ， 而 对 同类 目标 的 识别 并 不 十 分 理想 。 

实验 3: 基于 角 点 标记 图 与 BP 网 络 的 目标 分 类 

近年 来 ， 传 里 叶 描 绘 子 、 标 记 图 和 不 变 抢 特征 被 广泛 应 用 于 目标 识别 领域 。 
相对 传统 的 矩形 度 、 圆 形 度 等 描述 方法 ， 这 三 种 特征 不 仅 对 复杂 形状 有 着 更 好 
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的 盘 真 度 ， 而 且 解 决 了 平移 、 尺 度 和 旋转 不 变性 问题 ， 基 本 上 可 以 满足 多 数 情 
况 下 形状 匹配 和 目标 分 类 的 需求 。 但 目标 姿态 变化 导致 的 形状 改变 ， 是 对 传统 
的 识别 方法 的 新 挑战 ， 也 对 特征 描述 提出 了 更 高 的 要 求 。 

本 实验 将 角 点 标记 图 与 以 上 三 种 形状 特征 进行 了 实验 对 比 ， 实 验 中 使 用 相 
同 的 图 像 数 据 、 同 一 种 分 类 器 一 一 三 层 BP 网 络 ， 特 征 向 量 的 维 数 都 为 20 (ERAS 
变 矩 的 描述 通常 为 7 维 ) 。 选 用 的 飞机 3D 模型 为 F16，F117，M1237，747G， 在 
每 个 模型 的 单位 球 上 ， 从 北纬 90° 到 北纬 60° ， 纬 度 每 隔 $" 、 经 度 每 隔 2° 进 行 一 
次 投影 ， 则 在 每 个 纬度 下 ， 共 有 360/2 = 180 幅 投 影 图 ， 我 们 随机 抽取 其 中 的 
120 幅 作为 训练 集 ， 余 下 的 60 幅 为 测试 集 。 由 于 共有 4 个 3D 模型 ， 每 个 模型 在 
7 个 纬度 下 的 进行 投影 ， 整 个 训练 集 和 测试 集 样 本 数量 分 别 为 : 120 x7 x4 = 
3360, (180 -120) x7 x4 =1680。 作 为 基准 视点 ， 模 型 的 正 上 方 北纬 90° 对 应 于 
9 =0° 的 观察 于， 北纬 8$" 则 对 应 与 9=$。 的 观察 圆 ， 以 此 类 推 。 此 处 采用 整个 训 
练 集 的 一 部 分 数据 对 分 类 器 进行 训练 ， 只 是 在 基准 视点 (9 =0°) 的 投影 图 ， 共 
120 x4 =480 幅 。 测 试 时 用 的 是 全 部 的 测试 集 数据 ， 即 1680 幅 投影 图 。 

实验 结果 如 图 7-11 所 示 ， 两 种 角 点 标记 图 在 视点 发 生变 化 的 时 候 ， 对 目标 
的 识别 效果 好 于 其 他 三 种 特征 。 虽 然 在 视角 变化 较 小 的 时 候 (9 =5°)， 标记 
的 错误 分 类 率 小 于 角 点 标记 图 ， 但 是 当 视 角 变 化 逐渐 增 大 的 时 候 ， 角 点 标记 图 
的 稳定 性 和 识别 率 的 优势 愈加 明显 。 

实验 4: 增加 训练 模式 后 的 分 类 效果 改进 
通过 下 面 的 训练 方法 尝试 进一步 提高 系统 的 识别 能 力 : 在 使 用 基准 视点 
(69=0°) 的 投影 图 进行 训练 之 后 ， 用 余下 的 训练 集 数据 对 系统 进行 重新 训练 ， 再 
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图 7-11 五 种 特征 在 视点 变化 下 的 识别 效果 
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用 新 权 值 向 量 通 过 系统 运行 测试 集 样本 来 确立 识别 性 能 。 图 7-12 给 出 了 SUSAN 
角 点 特征 通过 持续 这 种 再 训练 和 令 9=5°*，10°%，15°*，20°，25°* 和 30° 后 进行 的 
再 测试 过 程 得 到 的 结果 。 
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图 7-12 通过 增加 训练 模式 改进 识别 效果 


正如 所 希望 的 ， 如 果 系 统 进行 了 适当 的 学 习 ， 由 测试 集 检 测 出 的 错误 分 类 
概率 会 在 增 大 时 降低 ， 故 通过 系统 性 的 、 视 点 变化 幅度 小 量 增 加 的 训练 来 增强 
系统 的 分 类 能 力 是 很 重要 的 。 但 如 果 视 点 变化 幅度 超过 了 15"， 目 标的 形状 变化 
剧烈 甚至 产生 了 自身 的 局 部 咱 挡 ， 这 种 情况 下 神经 网 络 在 学 习 过 程 中 的 收敛 和 
稳定 性 就 很 不 理想 了 。 














7.6 ”本章 小 结 


角 点 具有 位 置 、 夹 角 、 方 向 、 边 界 形状 、 锐 化 度 、 对 比 度 、 交 点 类 型 等 丰 
富 的 信息 ， 在 图 像 匹配 和 图 像 拼 接 领 域 中 已 经 取得 了 显著 的 成 果 。 本 章 通过 基 
准 角 点 和 重心 的 相对 位 置信 息 测量 物体 ， 定义 出 一 个 具有 平移 、 旋 转 、 尺 度 不 
变性 描述 子 来 识别 目标 ， 该 方法 有 一 定 的 健壮 性 ， 非 常 适合 于 特定 目标 (例如 
飞机 ) 的 识别 ;本 章 还 结合 主 分 量 法 和 Hausdorff 距离 ， 提 出 了 一 种 在 视点 变化 
下 目标 匹配 识别 方法 ,不仅 增 强 了 识别 算法 的 抗 噪声 和 抗 谈 挡 能 力 ， 同 时 也 减 
少 了 识别 的 时 间 代 价 。 

为 了 有 效 利 用 众多 样本 进行 分 类 识别 ， 本 章 在 对 特征 空间 进行 优化 设计 的 
基础 上 ， 提 出 了 一 种 基于 质心 的 角 点 特征 构造 方法 一 一 角 点 标记 图 ， 这 种 特征 
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简单 有 效 地 反映 了 目标 的 形状 特性 ， 并 具有 平移 、 旋 转 、 尺 度 不 变性 以 及 对 噪 
声 的 抗 干扰 能 力 。 与 其 他 三 种 形状 特征 进行 实验 结果 对 比 ， 表 明 采 用 该 特征 的 
分 类 方法 在 视点 发 生变 化 时 对 目标 的 识别 更 为 稳定 、 有 效 ， 且 通过 系统 性 的 、 
视点 变化 幅度 小 量 增 加 的 训练 可 以 进一步 增强 其 目标 识别 的 能 














附录 A 图 像 处 理 的 一 些 相 关 理 论 


A.1 数字 图 像 的 基本 概念 


“图 像 ” 一 词 在 汉语 中 很 难 给 出 一 个 明确 的 定义 ， 它 在 英文 中 有 三 个 相关 词 
汇 一 一 “picture”、“image” 和 “patterm”。 英 文 词典 一 般 是 这 样 注释 的 ，pic- 
画 、 图 画 、 图 像 、 图 片 、 电 影 等 ，image 一 一 像 、 图 像 、 景 像 、 映 像 、 影 
像 、 反 射 、 映 射 等 ，pattem 一 一 模型 、 式 样 、 样 本 、 图 案 、 花 样 、 图 、 图 形 等 。 
从 这 三 个 词 的 注释 中 大 致 可 做 如 下 区 分 ,， “picture” 是 指 与 照片 等 相似 的 用 手工 
描绘 的 人 物 或 景物 ， 其 中 侧重 于 手工 描绘 的 一 类 “ 画 ”; “image” 是 指 用 镜头 等 
科技 手段 得 到 的 视觉 形象 ， 一 般 来 讲 可 定义 为 “以 某 一 技术 手段 被 再 现 于 二 维 
画面 上 的 视觉 信息 ”， 通 俗 地 说 就 是 指 那些 用 技术 手段 (包含 计算 机 技术 ) 把 日 
标 原封 不 动 地 一 模 一 样 地 再 现 的 图 像 ， 而 “patterm” 在 拉丁 语 中 指 裁 衣 服 的 纸 
样 ， 因 此 它 主要 指 的 是 图 案 、 曲 线 、 图 形 。 综 上 所 述 ， 我 们 说 的 图 像 应 该 是 
"image", “Image Processing” 处 理 的 主要 是 照片 、 复 印 机 、 电 视 机 、 传 真 机 、 
HADLER — ER 

“图 像 ” 和 “图 象 ”这 两 个 名 词 易 于 混 消 ， 在 各 种 专业 书籍 里 面 也 经 党 混 
用 ， 如 果 一 定 要 做 辨识 ， 我 们 可 以 简单 地 认为 ,“ 图 象 ”一 般 用 于 表示 数学 领域 
中 的 图 ， 如 函数 图 象 一 类 的 东西 。 而 对 于 “图 像 ” 和 “图 形 ” 这 两 个 概念 ， 我 
们 可 以 从 以 下 几 个 方面 进行 区 分 : 

1) 存储 方式 的 区 别 。 图 形 存储 的 是 画图 的 函数 。 图 像 存 储 的 则 是 像素 的 位 
置信 息 和 颜色 信息 以 及 灰 度 信息 。 

2) 缩放 的 区 别 。 图 形 在 进行 缩放 时 不 会 失真 ， 可 以 适应 不 同 的 分 辨 率 。 图 
像 放 大 时 会 失真 ， 可 以 看 到 整个 图 像 是 由 很 多 像素 组 合 而 成 的 。 

3) 处 理 方式 的 区 别 。 对 图 形 ， 我 们 可 以 旋转 、 扭 曲 、 拉 伸 等 。 而 对 图 像 ， 
我 们 一 般 会 进行 对 比 度 增 强 、 边 缘 检测 等 。 

4) 算法 的 区 别 。 对 图 形 ， 我 们 可 以 用 几何 算法 来 处 理 。 对 图 像 ， 我 们 可 以 
用 滤波 、 统 计 的 算法 。 
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5) 其 他 。 图 形 不 是 主观 存在 的 ， 是 我 们 根据 客观 事物 而 主观 形成 的 。 图 像 
则 是 对 客观 事物 的 真实 描述 。 
当 用 数学 方法 描述 图 像 信息 时 ， 通 常 着 重 于 考虑 它 的 点 的 性 质 。 例 如 一 
囊 图 像 可 以 被 看 成 是 空间 各 个 坐标 点 上 强度 的 集合 。 它 的 最 普遍 的 数学 表达 
式 为 
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T=f(x, y, 2, A, t) (A-1) 
式 中 ，(x,，y，z) 是 空间 坐标 ,和 ERK, tÆ, 7 是 图 像 的 强度 。 这 样 一 个 
表达 式 可 以 代表 一 幅 活动 的 、 彩 色 的 、 立 体 图 像 。 
当 我 们 研究 的 是 静止 图 像 (Sull Image) 时 ， 则 上 和 式 与 时 间 1 无 关 ; 当 研 究 
的 是 单 色 图 像 时 ， 显 然 与 波长 A 无 关 ; 对 于 平面 图 像 来 说 ， 则 与 坐标 z 无 关 。 因 
此 ， 对 于 静止 的 、 平 面 的 、 单 色 的 图 像 来 说 ， 其 数学 表达 式 可 以 简化 为 一 个 二 
维 函 数 






































T=f(x, y) (A-2) 
这 里 ,x 和 y 是 二 维 空间 坐标 ， 而 函数 /是 求 取 任意 一 对 二 维 空 间 坐 标 (x,，y) 上 
的 幅 值 [/， 也 就 是 该 点 图 像 的 强度 或 灰 度 。 当 x，y 和 幅 值 1 为 有 限 的 离散 数值 
时 ， 称 该 图 像 为 数字 图 像 (Digital Image) 。 数 字 图 像 是 由 有 限 的 元 素 组 成 的 ， 
每 个 元 素 都 有 一 个 特定 的 位 置 和 幅 值 ， 这 些 元 素 称 为 图 像 元 素 、 画 面 元 素 或 
像素 。 


A.2 数字 图 像 的 信息 内 容 


视觉 信息 是 人 类 获取 外 部 知识 、 了 解 世界 的 主要 途径 和 重要 形式 。 许 多 情 
况 下 ， 没 有 任何 其 他 形式 比 图 像 所 传递 的 信息 更 丰富 和 真切 。 概 括 起 来 ， 图 像 
土 息 大 致 可 以 分 成 三 类 ， 即 符号 信息 、 景 物 信息 和 情绪 信息 ”1 。 

1. 符号 信息 

在 这 类 信息 中 ， 一 般 是 用 文字 、 符 号 、 图 形 等 表示 的 具体 的 或 抽象 的 事物 。 
例如 文字 ， 利 用 文字 可 组 成 文章 ， 在 某 种 意义 上 也 可 以 看 成 是 用 二 值 图 像 的 形 
式 携 带 这 篇 文章 的 寓意 。 电 路 图 、 机 械 图 、 建 筑 图 和 流程 图 等 ， 也 都 是 用 二 值 
图 像 的 形式 向 人 们 提供 信息 的 。 因 为 符号 信息 是 以 某 一 规则 进行 排列 的 记号 ， 
所 以 在 传送 和 处 理 过 程 中 只 需 表 达 清楚 即 可 ， 人 允许 有 较 大 的 压缩 。 

2. 景物 信息 

这 是 一 种 能 给 人 以 主观 感觉 但 并 不 取决 于 人 本 身 的 客观 场景 信息 。 一 般 来 
讲 ， 它 包含 丰富 的 内 容 ， 所 含 的 信息 量 也 较 多 。 例 如 ， 由 生产 车 间 视 频 监 控 仪 
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器 上 看 到 的 图 像 信息 ， 可 以 从 中 得 到 有 关 产 品 的 生产 情况 、 工 人 的 工作 情景 、 
设备 的 运转 情况 以 及 车 间 环 境 等 。 情 景 画面 的 内 容 一 般 比较 复杂 ， 需 要 保留 
些 细节 信息 ， 所 以 在 传输 和 处 理 过 程 中 很 难 进行 较 大 的 压缩 。 

3. 情绪 信息 

这 是 一 类 依赖 于 观赏 者 的 图 像 信 息 ， 它 不 仅 能 给 人 以 直观 感觉 ， 而 且 能 以 
其 特殊 的 艺术 内 容 刺 激 人 的 感官 ， 使 观赏 者 “ 触 景 生 情 ”引起 感情 上 的 波动 和 
情绪 上 的 共鸣 。 因 此 ， 它 包含 有 更 多 的 信息 量 。 例 如 ， 我 们 看 到 漆黑 夜晚 、 雷 
电 交 加 的 场景 时 ， 往 往 会 感到 恕 惧 和 敬 旦 ; 看 到 天 色 阴 上 暗 、 秋 雨 绵 绢 的 场景 时 ， 
一 般 会 有 无 限 的 压抑 之 感 ; 而 看 到 春光 明媚 、 微 风 和 上 网 的 场景 时 ， 自 然 会 产生 
一 种 轻松 欢喜 的 情绪 。 这 些 图 像 信息 不 仅 取 决 于 图 像 本 身 的 内 容 ， 而 且 还 与 观 
赏 者 的 经 历 、 年 龄 、 哮 好、 文化 修养 以 及 此 时 此 刻 的 心境 有 关 ， 也 就 是 说 同一 
幅 图 像 对 观赏 者 产生 的 效果 是 有 差异 的 。 

数字 图 像 丰富 的 信息 内 容 也 就 决定 了 图 像 理 论 和 技术 涉及 众多 的 学 科 ， 如 
各 类 数学 、 物 理学 、 信 和 号 处 理 、 控 制 论 、 模 式 识别 、 人 工 智 能 、 生 物 学 、 神 经 
心理 学 、 计 算 机 科学 与 技术 等 ， 它 是 一 门 兼 具 交 又 性 和 开放 性 的 学 科 。 


A.3 ”图像 处 理 的 技术 门类 


目前 ， 数 字 图 像 处 理 多 采用 计算 机 处 理 ， 因 此 ， 有 时 也 称 为 计算 机 图 像 处 
Jl (Computer Image Processing) 。 数 字 图 像 处 理 涉及 多 个 知识 门类 ， 具体 的 方法 
技术 也 是 种 类 繁多 ， 应 用 非常 广泛 ， 但 从 主要 研究 内 容 上 可 以 分 为 以 下 几 个 
方面 : 

1. 图 像 数 字 化 (Image Digitization) 

将 连续 色调 的 模拟 图 像 经 采样 量化 后 转换 成 数字 影像 的 过 程 。 其 目的 是 将 
模拟 形式 的 图 像 通过 数字 化 设备 变 为 数字 计算 机 可 用 的 离散 的 图 像 数据 ， 主 要 
包括 取样 技术 和 量化 技术 。 

2. 图 像 变 换 (Image Transformation ) 

按 一 定 规则 从 一 帧 图 像 转 化 生成 另 一 帧 图 像 的 处 理 方 法 。 主 要 是 为 了 便于 
后 续 的 工作 ， 采 用 相关 技术 以 改变 图 像 的 表示 域 和 表示 数据 ， 主 要 包括 傅 里 叶 
变换 、 余 弦 变 换 、 沃 尔 什 -哈达 玛 变换 、 奇 异 值 分 解 、KL 变换 等 。 

3. 图 像 增 强 (Image Enhancement) 

图 像 增强 将 原来 不 清晰 的 图 像 变 得 清晰 或 强调 某 些 关注 的 特征 ， 抑 制 非 关 
注 的 特征 ， 使 之 改善 图 像 质量 、 丰 富 信息 量 ， 加 强 图 像 判 读 和 识别 效果 的 图 像 

























































































" 170 . ”图 像 目 标的 表示 与 识别 


处 理 方法 。 图 像 增强 技术 可 分 成 两 大 类 一 一 频率 域 法 和 空间 域 法 。 前 者 把 图 像 
看 成 一 种 二 维 信号 ， 对 其 进行 基于 二 维 传 里 叶 变换 的 信号 增强 。 采 用 低 通 滤波 
( 即 只 让 低频 信号 通过 ) 法 ， 可 去 掉 图 中 的 噪声 ;采用 高 通 滤波 法 ， 则 可 增强 边 
缘 等 高 频 信 号 ， 使 模糊 的 图 片 变 得 清晰 。 具 有 代表 性 的 空间 域 算 法 有 局 部 求 平 
均值 法 和 中 值 滤 波 ( 取 局 部 邻 域 中 的 中 间 像 素 值 ) 法 等 ， 它 们 可 用 于 去 除 或 减 
弱 噪 声 。 

4. 图 像 恢复 (Image Restoration) 

图 像 恢复 也 叫 图 像 复 原 ， 是 通过 计算 机 对 质量 下 降 的 图 像 加 以 重建 或 恢复 
的 处 理 过 程 。 因 摄像 机 与 物体 相对 运动 、 系 统 误差 、 畸 变 、 品 声 等 因素 的 影响 ， 
图 像 往 往 不 是 真实 景物 的 完善 映像 。 在 图 像 恢 复 中 ， 需 建立 造成 图 像 质 量 下 降 
的 退化 模型 ， 然 后 运用 相反 过 程 来 恢复 原来 图 像 ， 并 运用 一 定 准 则 来 判定 是 否 
得 到 图 像 的 最 佳 恢复 。 尤 其 是 在 处 理 遥 感 图 像 时 ， 为 消除 遥感 图 像 的 失真 、 畸 
变 ， 恢 复 目 标的 反射 波谱 特性 和 正确 的 几何 位 置 ， 通 常 需要 对 图 像 进行 恢复 处 
理 ， 包 括 辐 射 校正 、 大 气 校正 、 条 带 噪声 消除 、 几 何 校正 等 内 容 。 

5. E EJ (Image Segmentation) 

图 像 分 割 是 指 根据 选 定 的 特征 将 图 像 划 分 为 若干 个 有 意义 的 部 分 ， 从 而 使 
原 图 像 在 内 容 表达 上 更 为 简单 明了 ， 为 后 续 图 像 分 析 和 理解 打下 基础 。 传 统 的 
图 像 分 割 算法 按照 用 户 参 与 的 程度 可 分 为 自动 、 交 互 式 与 纯 手 工 的 分 割 方法 ; 
根据 利用 区 域内 相似 性 还 是 区 域 间 相 异性 原理 的 区 别 可 分 为 基于 区 域 、 基 于 边 
界 或 者 两 者 结合 的 算法 ; 依据 分 割 结果 的 确定 性 与 否 可 以 分 为 软 分 割 与 硬 分 
DEF 

6. 图 像 理解 (Image Understanding) 

图 像 理解 就 是 对 图 像 的 语义 理解 ， 有 时 也 叫 景 物理 解 。 它 是 以 图 像 为 对 象 ， 
知识 为 核心 ， 研 究 图 像 中 有 什么 目标 、 目 标 之 间 的 相互 关系 、 图 像 是 什么 场景 
以 及 如 何 应 用 场景 的 一 门 学 科 。 其 重点 是 在 图 像 分 析 的 基础 上 进一步 研究 图 像 
中 各 目标 的 性 质 及 其 相互 关系 ， 并 得 出 对 图 像 内 容 含义 的 理解 以 及 对 原来 客观 
场景 的 解释 ， 进 而 指导 和 规划 行为 。 图 像 理 解 所 操作 的 对 象 是 从 描述 中 抽象 出 
来 的 符号 ， 其 处 理 过 程 和 方法 与 人 类 的 思维 推理 有 许多 相似 之 处 。 

7. 图 像 压 缩 (Image Data Compression) 

图 像 压 缩 是 指 以 较 少 的 比特 有 损 或 无 损 地 表示 原来 的 像素 矩阵 的 技术 ， 也 
称 图 像 编码 。 图 像 数据 之 所 以 能 被 压缩 ， 就 是 因为 数据 中 存在 着 元 余 ， 主 要 表 
现 为 图 像 中 相 邻 像素 间 的 相关 性 引起 的 空间 宛 余 ; 图 像 序列 中 不 同 帧 之 间 存 在 
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相关 性 引起 的 时 间 宛 余 ; 不 同 彩色 平面 或 频谱 带 的 相关 性 引起 的 频谱 元 余 。 数 
据 压缩 的 目的 就 是 通过 去 除 这 些 数 据 宛 余 来 减少 表示 数据 所 需 的 比特 数 。 由 于 
图 像 数 据 量 的 庞大 ,在 存储 、 传 输 、 处 理 时 非常 困难 ， 因 此 图 像 数 据 的 压缩 就 
显得 非常 重要 。 

8. ARB (Image Reconstruction) 

图 像 变换 、 图 像 增强 、 图 像 恢 复 都 是 从 图 像 到 图 像 的 处 理 ， 即 输入 的 原始 
数据 是 图 像 ， 处 理 后 输出 的 也 是 图 像 。 而 图 像 重建 是 从 数据 到 图 像 的 处 理 ， 也 
就 是 说 输入 的 是 某 种 数据 ， 处 理 结果 得 到 的 是 图 像 。 图 像 重建 的 主要 算法 有 代 
数 法 、 迭 代 法 、 健 里 叶 反 投影 法 、 卷 积 反 投影 法 等 ， 图 像 重 建 的 典型 应 用 就 是 
CT 技术 。 值 得 注意 的 是 ， 三 维 重建 技术 与 计算 机 图 形 学 相 结 合 ， 把 多 个 二 维 图 
像 合 成 三 维 图 像 ， 并 加 以 光照 模型 和 各 种 泻 染 技术 ， 能 生成 各 种 具有 强烈 真实 
感 及 纯净 的 高 质量 图 像 ， 是 虚拟 现实 和 科学 可 视 化 技术 的 基础 。 






































附录 B 模式 组 合 的 一 些 基 本 概念 


B.1 图 





图 的 本 质 内 容 是 二 元 关系 ， 图 又 分 为 无 向 图 和 有 向 图 两 种 。 

定义 B-1 (无 向 图 ) 无 向 图 6 定义 为 一 个 二 元 组 C= (N, E), WF, NÆ 
顶点 的 非 空 有 限 集 合 N = {nl i=0, =, kj; E BMW ARR 
合 , E={(n;, n;)| n;, nog. 

定义 B-2 (AHR) TÉ D 定义 为 一 个 二 元 组 D = (N, E), WF, NI 
顶点 的 非 空 有 限 集合 ,，N = {nl i=0, =, ky; E Jum IR A, E = 
(n, n) n, ENA, n) (u, n), (u, n) e E EDA niih, Di 
A n LAGU. 

定义 B-3 (连通 图 ) 连通 图 是 一 个 无 向 图 G = (N, RANE D= 
(N, E), XF N 中 的 任意 两 个 顶点 n, 和 n,， 存 在 一 个 顶点 的 序列 P， 使 得 n= 
Wes Wig s Me, =n, EFN, He, = (n; n; JG=0, 1, =, 大 -1) 均 属于 
E, P 也 被 称 为 图 C 或 也 的 一 条 路 径 或 通路 。 

定义 B-4 (回路 ) 设 忆 是 有 向 图 九 的 一 条 路 径 , P=n,, nas, co, nu, 4 
Rn =n, WPP Æ D 的 一 条 回路 ， 即 开始 和 终结 于 同一 顶点 的 通路 。 如 果 
=0， 则 也 称 为 自 回路 。 车 P 是 无 向 图 C 的 一 条 路 径 ,，P =n,，n，…，n,， 
n, =n, Hk>0, IBA, 称 P 是 G 的 一 条 回路 。 若 图 中 无 任何 回路 ， 则 称 该 图 
为 无 回路 图 。 


B.2 树 


定义 B-5( 树 ) 一 个 无 回路 的 无 向 图 称 为 森林 。 一 个 无 回路 的 连通 无 向 图 
称 为 树 (或 自由 树 )。 如 果树 中 有 一 个 节点 被 特别 地 标记 为 根 节 点 ， 那 么 这 棵 树 
称 为 根 树 。 

从 逻辑 结构 上 讲 ， 树 是 包含 ”个 节点 的 有 穷 集 合 $ (n>0), HÆS EEX 
TRR, REIFEN: 
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1) 有 且 仅 有 一 个 节点 i。e S， 该 节点 对 于 RR 来 说 没有 前 驱 ， 节 点 to PRE 
树 根 ; 

2) 除了 节点 如 以 外 ，5 中 的 每 个 节点 对 于 尺 来 说 ， 都 有 且 仅 有 一 个 直接 
前 驱 ; 

3) 除了 节点 以 外 的 任何 节点 te S， 都 存在 一 个 节点 序列 h e, ty 
使 得 i 为 树 的 根 ，i, = 上 2， 有 序 对 人 ， t) e R(1<i<k)， 则 该 节点 序列 称 为 从 
根 节点 t 到 节点 1 的 一 条 路 径 。 

在 根 树 中 ， 自 上 而 下 的 路 径 末 端 节点 称 为 树 的 叶 节 点 ， 介 于 根 节 点 和 叶 节 














点 之 间 的 节点 称 为 中 间 节 点 (或 称 内 节点 )。 À 
在 图 B-1 所 示 的 例子 中 ，4 为 根 节点 ，C、D、5 为 叶 
节点 ,8B 为 中 间 节 点 , 4 为 及、C 节点 的 父 节点 , BCR ” c 
为 4 节点 的 子 节点 或 后 毅 , D ECHOS RUBUS, ENB | 
是 8 节点 的 子 节点 。 
图 B-1 树 


B.3 符号 串 


定义 B-6 (符号 集 ) ”符号 集 之 是 符号 元 素 的 非 空 有 穷 集 合 。 典 型 的 符号 有 
字母 、 数 字 、 各 种 标点 符号 和 各 种 运算 符 。 

例如 , 集合 te,，2，c，+ ，} 是 一 个 含有 5 个 符号 的 符号 集 ， 而 符号 集 
{0，1} 只 有 两 个 符号 。 

定义 B-7 (FER) ”由 符号 集中 0 个 或 多 个 符号 相连 而 成 的 有 穷 序 列 称 
为 上 的 符号 串 。 特 殊 地 ， 不 包括 任何 符号 的 符号 串 称 为 空 串 ， 记 作 e URZ 
串 在 内 的 上 符号 串 的 全 体 记 为 >”。 

例如 ， 有 符号 集 {a, b, c, +,°}, Wa, b, c, +,°, aa, ab, a+, a’, 
aaa,，c +“ 等 等 都 是 该 符号 集 上 的 符号 串 。 

定义 B-8 (符号 串 的 长 度 ) Aix ESRD EAS, IBA, RKE 
x 中 所 含 符号 的 个 数 ， 记 为 |x|。 

it: |abe| 23, |abe+ "abc| 28, 而 |e|=0。 

“连接 ”和 “ 闭 包 ”是 符号 串 操 作 中 的 两 种 基本 运算 。 

定义 B-9 (符号 串 的 连接 ) ”假定 x，y 是 符号 集 之 上 的 符号 串 ， 则 把 y 的 各 
个 符号 依次 写 在 x 符号 串 之 后 得 到 的 符号 串 称 为 x 与 y 的 连接 ， 记 作 xy; 

例如 : Y ={a, b, ch, x-abc, y 2cba, WA, xy =abccba。 











WR « 是 符号 串 ， 把 * 自身 连接 n(n=0) 次 得 到 的 符号 串 z=xx…x， 称 为 x 
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HJ n KIT, 记 作 x"。 当 n=0 时 ， x? =e, “nel 时 ， x" sax" | ax"! x, 
定义 B-10 (集合 的 乘积 运算 ) WA, BERSEYD LOWES HEA, 
Wi] A F B 的 乘积 定义 为 





AB = {xylxeA, ye Bj (B-1) 
其 中 , Ao = {se}。 当 n=1 时 , 4"=A"-'4=A4"'。 
定义 B-11 (集合 的 闭 包 运 算 ) 设 V 是 符号 集 上 的 一 个 符号 串 集 合 ， 则 V 
的 正 闭 包 定 义 为 





Vt ZVUV Us UV Ue (B-2) 
V 的 闭 包 定义 为 
y* =VuV (B-3) 
例如 : V=ta, by, W 
V' ={a, b, aa, ab, ba, bb, aaa, aab, ---} 
V' ={e, a, b, aa, ab, ba, bb, aaa, aab, ---} 


附录 C 概率 统计 的 一 些 预 备 知识 


C.1 概率 


概率 (Probability) 是 从 随机 实验 EE 中 的 事件 到 实数 域 的 映射 函数 ， 用 以 表 
示 事 件 发 生 的 可 能 性 。 如 果 用 P(4) 作 为 事件 4 的 概率 ，S 是 实验 的 样本 空间 ， 
则 概率 函数 必须 满足 如 下 三 条 公理 : 

公理 C-1 ( 非 负 性 ) O<P(A)S1 

公理 C-2 (规范 性 ) P(S)=1 

公理 C-3 (可 列 可 加 性 )” 如 果 事 件 4, Au, ，…，4 , ，… 两 两 互 斥 ， 即 对 于 
任意 的 i 和 j (ij) ,事件 4, 和 4 不 相交 (ANA =D), WA 

P(A, UA, U= UA, U=) =P(A,)+P(A4,) += +P(A,)+. (C-1) 


C.2 最 大 似 然 估计 


如 果 S={s1，s,，…，s,} 是 一 个 随机 实验 的 样本 空间 ， 在 相同 的 情况 下 
重复 实验 NN 次， 观察 到 样本 s, (1 <h<n ) 的 次 数 为 ny(s;)， 那 么 ，s; 在 这 NN 次 实 
验 中 的 相对 频率 为 








ny (s,) 


dy) wy (C-2) 


由 于 Y ny Gs, = N, 因 此 ， > th m 
ON 越 来 越 大 时 ， 相 对 频率 qu Cs, ) 就 越 来 越 接 近 ;的 概率 PCS); EXE, 
limq,(s,) =P(s,) (C-3) 
因此 ， 通 党 用 相对 频率 作为 概率 的 估计 值 ， 这 种 估计 概率 值 的 方法 称 为 最 大 似 
然 估 计 (Likelihood Estimation) 。 
C.3 条 件 概率 


WR A 和 B 是 样本 空间 S$ 上 的 两 个 事件 ，P(B) >0,， WA, EAE B HHFA 
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的 条 件 概 率 (Conditional Probability) P(A41B) 为 


P(AB) 
P(B) 


条 件 概率 P(41 8B) 给 出 了 在 已 知事 件 B 发 生 的 情况 下 ， 事 件 4 的 概率 。 一 般 地 ， 
P(Al B)zP(A), P(AB)HIg P(AQB), 
根据 公式 (C-4), A 
P(AB) - P(B)P(AIB) 2 P(A)P(BIA) (6-5) 
这 个 等 式 有 时 称 为 概率 的 乘法 定理 或 乘法 规则 ， 其 一 般 形式 表示 为 
P(A,4,-A,) 2 P(A,)P(A,14, )P(VA,IA,A, )--P(A,IA,A,-4, 1) (C-6) 
条 件 概率 也 有 三 个 基本 性 质 : 
(1) 非 负 性 : P(A! B)=0 
(2) 规范 性 . P(SI B)-1 
(3) 可 列 可 加 性 : 如 果 事 件 4 AV, ，…，4, ，… 两 两 互 斥 ， 则 有 
P(A, UA, U= UA U…IB)=P(CIB)+P(CIB)+…+P(C4IB)+… 
(C-7) 


P(AIB) = 





(C-4) 





C.4 贝 叶 斯 公式 


贝 叶 斯 公式 ,或 称道 概率 公式 ， 是 条 件 概 率 计算 的 重要 依据 。 实 际 上 ， 根 
据 条 件 概率 的 定义 公式 (C-4) 和 乘法 规则 式 (C-5)， 可 得 


P(AB) P(A)P(BIA) 
P(B) — P(B) 


X (C-8) 右边 的 分 母 可 以 看 成 一 个 和 常量， 因为 我 们 只 关心 在 给 定 事件 如 的 情况 
下 可 能 发 生 事件 4 的 概率 ，P(B) 的 值 是 确定 不 变 的 ， 下 面 给 出 它 的 计算 方法 。 
定理 C-1 (全 概率 公式 ) WRF A, AQ, oe, AE: 
(1) A, A, c, AWANE, H P(A,)>0, (i=1, 2, =, n); 
(2) A,UA,U-- UA, =S (完全 性 ) 
则 对 任何 事件 互 有 














P(AIB) = 





(C-8) 

















P(B)= Y PUP BI AD (C-9) 
由 定理 C-1， 我 们 可 以 修改 公式 〈C-8) ， 进 而 给 出 贝 叶 斯 公式 。 
定理 C-2 ( 贝 叶 斯 公式 ) HFFA, A, e, A EEH C-1 的 条 件 (1) 
(2) 。 则 对 任何 事件 ， 当 P(B)>0 有 
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PCA PCB | A) 





PCA, | B= (C-10) 


> PAPI AD 
i=l 





一 个 随机 实验 可 能 有 多 种 不 同 的 结果 ， 到 底 会 出 现 哪 一 种 ， 存 在 一 定 的 概 
率 。 简单 地 说 ， 随 机 变量 (Random Variable) 就 是 实验 结果 的 函数 。 设 离散 型 
随机 变量 蕊 的 所 有 可 能 值 为 ,上 =1,，2,， 3，…, n, =, 和 X 取 各 可 能 值 的 概 
HN 

P[X=x,]=p,, F=1,2,3, 0, n, °° (C-11) 


FL pili p 20. ( 非 负 性 ) 与 Dp, = 1( 归 一 性 ) ， 则 称 式 (0-11). 为 离散 型 随 
机 变量 X 的 概率 分 布 或 分 布 律 。( 也 称 分 布 询 ， 分 布 密度 ) dnd, 

F(x)=P[XSx], =e exes (C-12) 
称 为 X 的 分 布 丽 数 。 


C.6 二 项 式 分 布 


有 一 类 广泛 存在 的 实验 ， 其 特点 是 只 有 对 立 的 两 个 结果 ， 即 实验 五 的 样本 
空间 只 有 两 个 基本 事件 4 与 4， 我 们 称 之 为 伯 努 利 实验 。 将 伯 努 利 实验 独立 重复 
进行 n K, ME n 重 伯 努 利 实 验 ， 这 里 所 谓 “ 重 复 ” 是 指 每 次 实验 条 件 相 同 ， 
事件 4 发 生 的 概率 P(A) 2 p 保持 不 变 。 

一 般 ， 如 果 离 散 型 随机 变量 X 的 分 布 律 为 

p[X=k]=Cp'g" ,k=1,2,3,., n(0<p<1) (C-13) 
则 称 X 服从 参数 是 n, p 的 二 项 式 分 布 (Binomial Distribution)， 并 记 成 ~B 
(n, p)。 在 nn 重 伯 努 利 实 验 中 , 4 P(A)=p, WA 发 生 的 次 数 式 服从 参数 是 n， 
p 的 二 项 式 分 布 。 

二 项 式 分 布 是 最 重要 的 离散 型 概率 分 布 之 一 。 例如， 在 图 像 处 理 中 如 果 以 
局 部 特征 为 处 理 单位 ， 为 了 简化 问题 的 复杂 性 ， 通 常 假设 一 个 局 部 特征 的 出 现 
独立 于 其 他 局 部 特征 ， 这 样 一 来 ， 局 部 特征 的 概率 分 布 就 近似 地 被 认为 符合 二 
项 式 分 布 。 


C.7 联合 概率 分 布 和 条 件 概率 分 布 
若 二 维 随机 变量 (X, Y) 所 有 可 能 取 值 (x，y) 只 有 有 限 个 或 可 列 多 个 ， 则 






































" 180 .图像 目标 的 表示 与 识别 
BR (X, Y) 为 二 维 离散 型 随机 变量 ， 其 联合 概率 分 布 (Joint Distribution) 为 




















p, =PIX =x,, Y=y], i, j21, 2,3, = (C-14) 
考虑 分 量 X 在 给 定 了 =y, 条 件 下 的 概率 分 布 ， 实 际 上 就 是 求 条 件 概 率 
P[X =x, Y = y,]= l =E 一 一 =- (C-15) 
[Y =y] ly =y,] Y», 
其 中 ，P[Y=y] = Èp EX, VAF v MAE. 
类 似 的 ， 在 X=x, 条 件 下 ,分 量 Y 的 条 件 分 布 律 为 
PlY=ylX=%]= # (C-16) 
2 


j=l 


其 中 , Ply = %,] = È p BAX, PAF X MWRA AE. 


C.8 贝 叶 斯 决策 理论 


贝 叶 斯 决策 理论 ( Bayesian Decision Theory) 是 统计 方法 处 理 模式 分 类 问题 的 
基本 理论 之 一 。 假 设 研究 的 分 类 问题 有 N 个 类 别 ， 每 个 类 别 wj (i =1，2，…，N) 
出 现 的 先 验 概率 为 P(w,)。 在 特征 空间 已 经 观察 到 某 个 特定 的 模式 x， 且 条 件 概 
KAEKA p (x | w,) 是 已 知 的 。 那 么 ,利用 贝 叶 斯 公式 可 以 得 到 后 验 概率 

A) (C-17) 
Xp(xlo)P(o,) 

基于 最 小 错误 率 的 贝 叶 斯 决策 规则 为 : 如 果 P Qo Ex) = max P Co, x), 
ERE, WR pal @,)P(@;) = max pix! w,)P(w,), 那么 将 模式 x 赋予 类 
w, BI xew,。 EE 

上 述 理论 中 ， 每 个 类 的 出 现 概率 以 模式 的 条 件 概率 密度 函数 必须 是 已 知 的 。 
前 者 的 获取 通常 并 不 构成 问题 ， 比 如 ， 当 所 有 类 的 出 现 概率 大 致 相同 ， 则 可 令 己 
(w) =1AN， 即 使 这 个 条 件 不 正确 ， 我 们 也 可 以 通过 对 问题 的 认识 推算 出 这 些 先 
验 概率 。 而 后 者 的 估计 就 是 男 一 回 事 了 ， 如 果 模 式 向 量 x 是 n ER, BA 
pl w;) 就 是 一 个 n 元 函数 ， 如 果 它 的 形式 是 未 知 的 ， 就 需要 使 用 多 元 概率 理 
论 的 方法 对 它 进行 估计 。 这 类 方法 在 实际 应 用 中 非常 困难 ， 尤 其 是 代表 每 个 类 
别 的 模式 数目 不 大 ， 或 隐 含 的 概率 密度 函数 形式 的 规律 性 不 强 时 更 是 如 此 。 由 
于 这 些 原因 ， 贝 叶 斯 决策 理论 在 实际 应 用 中 通常 要 假设 各 种 概率 密度 函数 的 解 
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析 式 ， 以 及 从 每 类 样本 模式 估计 的 必要 参数 。 目 前 ， 对 p(x! w,) 的 最 为 普遍 的 
假设 形式 是 高 斯 概率 密度 函数 。 


C.9 期 望 和 方差 
期 望 值 (Expectation) 是 指 随机 变量 所 取 的 概率 平均 。 假 设 X 为 一 个 随机 变 














量 ， 其 概率 分 布 为 P[X=x,] =p, 有 =1，2，3，…，,，n，…， 若 级 数 X um 绝 
对 收敛, 则 称 级 数 y xp, 为 随机 变量 的 数学 期 望 或 均值 , 记 作 EO, BI 


E(X) = 之 xm (C-18) 


一 个 随机 变量 的 方差 ( Variance ) 描述 的 是 该 随机 变 量 的 值 偏离 其 期 望 值 的 
程度 。 设 为 一 个 随机 变量 ， 那 么 它 的 方差 为 


D(X) =E[X -E(X) 22 =E(X’) - E (X) (C-19) 
PK D(X) 的 正方 根 VD(X) 为 随机 变量 X 的 标准 差 或 均 方 差 .， 记 为 
a (X) » /D(X) (C-20) 





c (XER R BALE Œ x CEA SE, MwA o, D(X) 也 可 简 记 
Ho. 


附录 D 信息 检索 的 一 些 基础 模型 


HAAS (Information Retrieval, IR) 的 研究 起 源 于 图 书馆 的 资料 查询 和 文 
摘 索 引 工作 。 计 算 机 诞生 以 后 ,尤其 是 随 着 计算 机 网 络 技术 的 迅速 发 展 ， 信 息 
检索 的 内 容 已 经 从 传统 的 文本 检索 扩展 到 包含 图 片 、 音 频 、 视 频 等 多 媒体 信息 
的 检索 ; 检索 对 象 从 相对 封闭 、 稳 定 一 致 、 由 独立 数据 库 集 中 管理 的 信息 内 容 
扩展 到 开放 、 动 态 、 更 新 速度 快 、 分 布 广泛 、 管 理 松散 的 网 络 内容 ; 信息 检索 
的 用 户 由 原来 的 情报 专业 人 员 扩 展 到 包括 商务 人 员 、 管 理 人 员 、 教 师 、 学 生 、 
各 专业 技术 人 员 等 在 内 的 普通 大 众 5 1 。 

海量 互联 网 信息 的 涌现 是 信息 检索 技术 发 展 最 直接 的 驱动 力 ， 这 对 信息 检 
索 从 结果 到 方式 都 提出 了 更 高 、 更 多 样 化 的 要 求 。 而 信息 检索 研究 的 目的 是 寻 
找 从 资料 中 获取 可 用 信息 的 模型 和 算法 ， 所 以 无 论 检索 内 容 如 何 丰富 、 如 何 变 
化 ， 其 本 质 还 是 一 样 的 。 我 们 下 面 还 是 以 传统 的 文档 资料 检索 为 例 ， 介 绍 一 些 
基础 的 、 成 熟 的 模型 (不 妨 称 之 为 “检索 模型 ")， 这 些 模型 已 经 在 多 媒体 信息 
检索 中 广 为 借 鉴 。 


D.1 布尔 模型 


在 这 种 模型 中 ， 候 选 查 询 文档 D 由 关键 词 的 逻辑 组 合 表 达 式 表示 ， 用 户 查 
询 0 由 布尔 表达 式 表 示 ， 那 么 ， 相 关 度 R(D,，0)=D 一 0， 即 当 D> 成 立时 ， 
R(D, Q)=1, AM, R(D, Q) -0, 

例如 : D = computer ^ graphics A interface A user, Q = computer A ( graphics V 
interface), ifD—QthenR(D, Q) -1, 

这 种 方法 的 主要 问题 是 ， 相 关 度 为 二 值 逻 辑 ， 要 么 为 1， 要 人 么 为 0。 也 就 是 
说 ， 候 选 文档 与 用 户 查 询 语句 要 么 相关 ， 要 么 不 相关 ， 这 在 实际 情况 下 是 不 合 
理 的 。 另 外 ， 作 为 一 般 的 终端 用 户 ， 很 难 快速 正确 地 给 出 查询 语句 的 布尔 表 
达 式 。 


D.2 向 量 空间 模型 


向 量 空间 模型 的 基本 思想 是 : 整个 向 量 空间 由 关键 词 构成 ， 即 
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(t,, to, 0v, t,)3 候选 文档 D =la, a, 0, a,), 其中, a, (1Sisn) AD 
中 4 的 权重 ;用 户 查 询 语句 Q = (b,, b, s, b), AP, b (1<i<n) 为 0 中 
ti 的 权重 。 那 么 用 户 查 询 与 候选 文档 的 相关 度 R(D,，Q)=Sim(D,，Q) 可 以 由 以 下 
方法 求 得 : 

(1) 点 积 法 


























Sim(D, Q)=D+Q= 2X (a; xb;) (D-1) 
(2) 余弦 法 
È (a, x b;) 
SaD, 0 qp do] AEA ne 
(3) Dice 方法 
2> (a, xb.) 
. 2xD-Q : i j 
Sim (D E E D z D-3 
P O^ oi TOP" Xe «xS (D:a) 
(4) Jaccard 方法 
È (a; xb.) 
D-Q 
Sim (D D-4 
WR a a a 


度量 两 个 向 量 之 间 的 相似 性 ， 还 有 很 多 方法 ， 在 此 就 不 一 一 列举 ， 可 以 参 
阅 相 关 资 料 ， 如 参考 文献 [54, 68, 120] 等 等 。 


D.3 概率 模型 


概率 模型 的 基本 思想 是 : 给 定 查询 语句 QO， 候 选 文 档 D, JH RER D 55 QA 
X. RER D 与 0 不 相关 ， 那 么 可 以 根据 概率 P(RI D，O) 和 P(RID，O) 这 
两 个 值 的 大 小 选取 搜索 的 文档 。 

根据 贝 叶 斯 公式 : 


P(RID, 0)= 

















P(DIR, Q)xP(R, Q) 
P(D, Q) 





e P(DIR, Q)=P(DIR,) (D-5) 


1 ， 关 键 词 HH 
PES De Gu mss a), h, mel ee EEN 
P(DI R, Q) = IPC; | Ry) 
= IIP(s; 211 Ro)*P(s, «01 Ry)? 


= Ip. -po (D-6) 
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P(DI R, Q)=TIP(x,=11 Ry)"P(x,=01 Ry) 
Mr ds s 
文档 与 在 询 的 相关 度 : 


xi _ C -x;) 

P(DI R, Q) i Ip; (1 P:i) 
— = log = = 
P(DI R, Q) Ig (1-9) t9 


p, a - q;) 1 - pj 
l + l : 
E Bg -pp ir 








RCD, Q) «log 





PA -q 


—— gs P — 

假设 一 组 训练 样本 共有 NSC, Fb, RATA 0 相关 的 文档 ,，N -RR， 
个 不 相关 的 文档 ， 这 N PEEP n PAS ARE] 1;。R, 个 相关 文档 中 及 
个 文档 包含 关键 词 1， ee ee 























n; -7; 个 文档 包含 关键 词 c, N-R, -n+r; 个 不 包含 关键 词 n. WK D-1 所 示 。 
表 D-1 训练 样本 数目 关系 
相关 文档 不 相关 文档 
数量 R; N-R; 
A SA " en 
不 包含 的 文档 数 R, =r, N-R, =n; +r, 
那么 
i 
PER (D-9) 
n. 一 了 
d^ NR, (D-10) 
于 是 ,公式 (D-8) 可 以 进一步 改写 为 
a -q rN -R, -n;+r,) 





Pi 
RD, 0)= Log aap) = sos CR (D-11) 


概率 模型 在 理论 上 具有 较 好 的 数学 基础 ， 但 是 ， 在 不 进行 任何 简化 的 情况 
Ta 实现 起 来 比较 困难 ， 其 有 效 性 往往 受到 诸多 因素 的 影响 


D.4 语言 模型 





鉴于 语言 模型 在 很 多 问题 的 研究 中 都 获得 了 成 功 的 应 用 ， 很 多 学 者 也 提出 
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了 将 改进 的 语言 模型 用 于 信息 检索 的 方法 。 人 例如， 文档 模型 (Document Model) , 
查询 模型 (Query Model) 、 x EUN ( Divergence Model) 和 翻译 模型 (Transla- 
tion Model) 等 。 

文档 模型 的 基本 思想 是 : 假定 查询 0 是 由 文档 D 的 概率 模型 产生 的 ， 并 由 
此 对 文档 进行 排序 。 也 就 是 说 ， 给 定 查询 0 = qh g, (9 ;为 查询 词 ) 和 文档 D, 
那么 , 文档 模型 的 任务 就 是 先 建立 文档 的 语言 模型 M,， 然 后 根据 概率 P 
(Q1 My ) 对 文档 进行 排序 。 

文档 模型 的 一 元 文法 描述 形式 为 

P(QIM,) = ILP (gM;) (D-12) 

P (q,| Mj) 反映 的 是 查询 词 在 文档 D 中 的 概率 分 布 。 
查询 模型 的 基本 思想 是 : 假定 查询 0 =q1q,…9, 和 文档 D 均 采 样 自 一 个 未 知 
的 相关 模型 RR 刻画 了 Q 和 D 在 查询 相关 文档 中 的 概率 分 布 ， 从 相关 模型 R 
中 经 过 天 次 采样 ， 观 察 到 查询 0， 估 计 第 +1 次 采样 观察 到 文档 中 的 词 w 的 
概率 。 
查询 模型 描述 为 












































P(DIR)= ILP(o1R) (D-13) 


P(o,q,4,4,) 
P(qiqy74,) 
差异 模型 的 基本 思想 是 : 通过 计算 文档 模型 和 查询 模型 之 间 的 Kullback- 
Leibler 差异 (KL 距离 ) ， 根 据 KL 距离 大 小 对 候选 文档 进行 排序 。 那 么 ， 该 模型 
的 任务 就 是 先 估 计 文 档 模 型 P(w| Mp), 然后 估计 查询 模型 P(w| R)， 从 而 计 
算 文档 模型 和 查询 模型 之 间 的 KL 距离 : 


P(wIR)~=P(wlgg,…gq, ) = (D-14) 











Pwl R) 
KL(RII M,) = È Pwl TENTE 
D 


翻译 模型 的 基本 思想 是 : 把 查询 语句 Q = gig,…9, 看 做 是 文档 D 在 同一 语言 
内 的 翻译 ， 并 根据 翻译 的 概率 大 小 对 候选 文档 进行 排序 ， 根 据 统计 翻译 模型 有 
PQI D)= II^, | D) = IL Xr, | o)PG,| D) (D-16) 


HP, Plo] 六) 为 词 w 在 文档 万 中 的 概率 分 布 ， P (q;| ww;) 为 词 w 翻 译 成 查询 
中 的 词 ,的 概率 。 


(D-15) 








附录 E 名 词 术语 解释 


本 附录 旨 在 避免 读者 对 常用 词 和 本 书 所 使 用 的 专业 化 词汇 产生 混 消 ,方便 
读者 对 本 书 的 阅读 和 理解 。 下 述 解 释 同 后 面 参考 文献 中 所 列 的 已 经 出 版 的 图 像 
处 理 和 计算 机 技术 方面 的 书籍 中 对 有 关 词 汇 的 定义 大 体 一 致 ， 但 不 一 定 都 是 本 
领域 的 标准 化 定义 ， 冤 请 注意 。 

10- fold cross- validation ， 十 折 交 义 验 证 一 一 常用 的 精度 测试 方法 ， 将 数据 
集 分 成 10 份 ， 轮 流 将 其 中 9 份 做 训练 ，1 份 做 测试 ，10 次 结果 的 均值 作为 对 算 
法 精度 的 估计 。 

Active Contour Model， 主 动 轮廓 模型 一 一 又 被 称 为 Snake， 是 由 Andrew 
Blake 教授 提出 的 一 种 目标 轮廓 描述 方法 ， 主 要 应 用 于 基于 形状 的 目标 分 割 。 

Artificial Neural Networks， 人 工 神 经 网 络 一 一 简称 神经 网 络 ( NN/NNet/ 
ANN) 或 称 作 连接 模型 (Connection Model) ， 是 一 种 模仿 动物 神经 网 络 行为 特 
征 ， 进 行 分 布 式 并 行 信 息 处 理 的 模型 。 

Binary image， 二 值 图 像 一 一 只 有 两 级 灰 度 的 数字 图 像 (通常 为 0 和 1， 黑 
ANAL) 。 

Boundary chain code， 边 界 链 码 一 一 定义 一 个 物体 边界 的 方向 序列 。 

Boundary pixel， 边 界 像素 至 少 和 一 个 背景 像素 相 邻 接 的 内 部 像素 。 

Boundary tracking， 边 界 跟 踪 一 一 一 种 图 像 分 割 技术 ,通过 沿 弧 从 一 个 像 
素 顺序 探索 到 下 一 个 像素 的 方法 将 弧 检测 出 来 。 

Brightness, 4iJ£ 和 图 像 一 个 点 相关 的 值 ， 表 示 从 改 点 的 物体 发 射 或 反 
射 的 光 的 量 。 

Cluster ， 聚 类 ， 集 群 一 -在 空间 (如 特征 空间 ) 中 位 置 接近 的 点 的 集合 。 

Cluster analysis ， 聚 类 分 析 在 空间 中 对 聚 类 的 检测 、 度 量 和 描述 。 

Computer- assisted diagnosis， 计 算 机 辅助 诊断 一 一 英文 简称 CAD ， 是 指 通 
过 影像 学 、 医 学 图 像 处 理 技术 以 及 其 他 可 能 的 生理 、 生 化 手段 ， 结 合计 算 机 的 
分 析 计 算 ， 辅 助 影像 科 医 师 发 现 病 灶 ， 提 高 诊断 的 准确 率 。 

Contrast， 对 比 度 一 一 物体 平均 亮度 (或 灰 度 ) 与 其 周围 背景 的 差别 程度 。 
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Curve, HH2—— (1) 空间 的 一 条 连续 路 径 ; (2) 表示 一 路 径 的 像素 
集合 。 

Degree of freedom, H HJE 能 够 自由 取 值 的 变量 个 数 ， 如 有 3 个 变量 
x y, z, BREIEN x + y + z = 18， 因 此 其 自由 度 为 2。 

Digital image ， 数 字 图 像 一 一 见 附录 A. 1。 

Digital image processing ， 数 字 图 像 处 理 一 一 对 图 像 的 数字 化 处 理 ， 由 计算 
机 对 图 像 信息 进行 操作 。 

Digitization， 数 字 化 一 一 将 景物 图 像 转化 为 数字 形式 的 过 程 。 

Edqge， 边 缘 一 一 (1) 在 图 像 中 灰 度 出 现 突变 的 区 域 ，(2) 属于 一 段 弧 上 
的 像素 集 ， 在 其 另 一 边 的 像素 与 其 有 明显 的 灰 度 差别 。 

Edge detection ， 边 缘 检 测 一 一 通过 检查 邻 域 ， 将 边缘 像素 标识 出 的 一 种 图 
像 分 割 技术 。 

Edge enhancement， 边 缘 增 强 一 一 通过 将 边缘 两 边 像素 的 对 比 度 扩 大 来 镜 
化 图 像 边 缘 的 一 种 图 像 处 理 技术 。 

Enhance, 143% 增加 对 比 度 或 主观 可 视 程度 。 
上 利用 分 析 比 较 人 脸 视 觉 特征 信息 进行 身 




































































Face recognition, ， 人 脸 识 别 
份 鉴别 的 计算 机 技术 。 

False negative ， 负 误 识 一 一 在 二 分 类 模式 识别 中 ， 将 属于 目标 标注 为 不 属 
于 目标 的 误 分 类 。 

False positive ， 正 误 识 一 一 在 二 分 类 模式 识别 中 ， 将 不 属于 目标 标注 为 属于 
目标 的 误 分 类 。 

Feature， 特 征 一 一 物体 的 一 种 特性 ， 它 可 以 度量 。 

Feature extraction, ， 特 征 检测 一 一 模式 识别 过 程 中 的 一 个 步骤 ， 在 该 步骤 中 
计算 物体 的 有 关 度 量 。 

Featureselection ， 特 征 选 择 一 一 对 原始 特征 进行 筛选 ， 售 弃 那 些 对 类 别 区 分 
并 无 多 大 贡献 的 特征 ， 使 得 最 终 的 特征 空间 能 够 反映 分 类 的 本 质 。 

Feature space， 特 征 空 间 一 一 即 度量 空间 ， 在 模式 识别 中 ， 包 含 所 有 可 能 度 
EHER n AE H, 

Fourier transform, (5 E np 2 采用 复 指 数 e P™ = cos (2msx) + jsin 
(2msx) 作为 核 函 数 的 一 种 线性 变换 。 

Geometric correction， 几 何 校 正 一 一 采用 几何 变换 消除 几何 畸变 的 一 种 图 
像 复原 技术 。 







































































附录 E “名词 术 语 解释 189. 


Gray level， 灰 度 级 一 一 (1) 和 数字 图 像 的 像素 相关 联 的 值 ， 它 表示 由 该 
像素 的 原始 景物 点 的 亮度 ; (2) 在 某 像素 位 置 对 图 像 的 局 部 性 质 的 数字 化 度量 。 

Gray scale， 灰 度 一 一 在 数字 图 像 中 所 有 可 能 灰 度 级 的 集合 。 

Gray-scale transformation， 灰 度 变换 在 点 运算 中 的 一 种 函数 ， 它 建立 
了 输入 灰 度 和 对 应 输出 灰 度 的 关系 。 

Image， 图 像 一 一 对 物理 景物 或 其 他 图 像 的 统一 表示 ， 见 附录 A. 1。 

Image compression, ， 图 像 压 缩 一 一 消除 图 像 元 余 或 对 图 像 近似 的 一 种 过 程 ， 
其 目的 是 让 图 像 以 更 紧凑 的 形式 表示 。 

Image coding， 图 像 编码 一 将 图 像 变换 成 另 一 个 可 恢复 的 形式 (如 压缩 )。 

Image enhancement， 图 像 增强 一 一 旨 在 提高 图 像 视觉 外 观 的 处 理 方 法 。 

Image matching， 图 像 匹 配 一 一 为 决定 两 幅 图 像 相 似 程 度 对 它们 进行 量化 比 
较 的 过 程 。 

Image- processing operation ， 图 像 处 理 运算 一 一 将 输入 图 像 变 换 为 输出 图 像 
的 一 系列 步骤 。 

Image reconstruction ， 图 像 重 构 一 一 从 非 图 像 形 式 构造 或 恢复 图 像 的 过 程 。 

Image registration, ， 图 像 配 准 一 一 通过 将 同一 景物 的 一 幅 图 像 和 另 一 幅 网 像 
进行 几何 运算 ， 以 使 其 中 物体 对 准 的 过 程 。 

Image restoration, ， 网 像 恢 复 一 一 通过 道 图 像 退 化 的 方法 将 图 像 恢复 为 原始 
状态 的 过 程 。 

Image segmentation, ， 图 像 分 割 一 一 (1) 在 图 像 中 检测 并 勾画 出 感 兴趣 物 
体 的 处 理 ; (2) 将 图 像 分 为 不 相连 的 区 域 ， 通 常 这 些 区 域 对 应 于 物体 以 及 物体 
所 处 的 背景 。 

Information Retrieval, ， 信 息 检 索 一 一 指 将 信息 按 一 定 的 方式 组 织 起 来 ， 并 
根据 信息 用 户 的 需要 找 出 有 关 的 信息 的 过 程 和 技术 。 

Information theory, ， 信 息 论 一 一 关于 信息 量度 量 和 信息 编码 、 信 号 处 理 和 
分 析 的 科学 理论 。 

Interior pixel， 内 像素 一 一 在 一 幅 二 值 图 像 中 ， 处 于 物体 内 部 的 像素 (相对 
于 边界 像素 、 外 像素 ) 。 

Line detection ， 线 检测 一 一 通过 检查 邻 域 将 直线 像素 标识 出 来 的 一 种 图 像 
分 割 技术 。 

Local property， 局 部 特性 一 一 在 图 像 中 随 位 置 变化 的 感 兴 趣 的 特性 〈 如 光 
学 图 像 的 亮度 或 颜色 ， 非 光学 图 像 的 高 度 、 温 度 和 密度 等 ) 。 
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Magnetic resonance imaging， 磁 共振 成 像 一 X. PIER WA Hie EAR, XX 
简称 MRI。 利 用 人 体 组 织 中 氧 原子 核 (质子 ) 在 磁场 中 受到 射频 脉冲 的 激励 而 
发 生 核 磁 共 振 现 象 ， 产 生 磁 共振 信号 ,经 过 电子 计算 机 处 理 ， 重建 出 人 体 某 一 
层面 的 图 像 的 成 像 技 术 。 

Misclassification， 误 分 类 一 一 在 模式 识别 中 ,将 目标 错误 地 标识 为 其 他 
类 别 。 
Multispectral image， 多 光谱 图 像 
磁 谱 的 不 同 波段 辐射 产生 的 。 
Neighborhood ， 邻 域 一 一 在 给 定 像素 附近 的 一 个 像素 集合 。 

Neighborhood operation， 邻 域 运算 一 一 基于 输入 像素 的 一 个 邻 域 的 像素 灰 
度 决 定 该 像素 输出 灰 度 的 图 像 处 理 运算 。 
Noise, ， 噪 声 一 一 一 幅 图 像 中 阻 得 感 兴趣 数据 的 识别 和 解释 的 不 相关 部 分 。 

Object， 目 标 ， 物 体 一 一 在 模式 识别 中 ， 处 于 一 幅 二 值 图 像 中 的 相连 像素 的 
集合 ， 通 常 对 应 于 该 图 像 所 表示 景物 中 的 一 个 物体 。 

Pattern ， 模 式 一 一 一 个 类 的 成 员 所 表现 出 的 共有 的 有 意义 的 规则 性 ， 可 以 
度量 并 可 用 于 对 感 兴趣 的 目标 进行 分 类 。 

Pattern class ， 模 式 类 可 预先 赋予 一 个 目标 的 相互 不 包容 的 任 一 个 类 别 























同一 景物 的 一 组 图 像 ， 每 一 幅 是 由 电 























Pattern classification ， 模 式 分 类 一 一 将 目标 赋予 模式 类 的 过 程 。 

Pattern recognition， 模 式 识 别 一 一 自动 或 半自动 地 检测 、 度 量 、 分 类 目标 
物体 。 

Perimeter， 周 长 一 一 围绕 一 个 物体 的 边界 的 周边 距离 。 

Picture element， 图 像 元 素 ， 像 素 一 数字 图 像 的 最 小 基本 组 成 单位 。 

Pixel， 像 素 一 一 图 像 元 素 (picture element) 的 缩写 。 

Quantization, ， 量 化 一 一 在 每 个 像素 处 ， 将 图 像 的 局 部 特性 赋予 一 个 灰 度 集 
合 中 的 元 素 的 过 程 。 

Region ， 区 域 一 一 一 幅 图 像 中 的 相连 子 集 。 

Region growing， 区 域 生 长 ， 区 域 增长 一 一 通过 反复 对 具有 相似 灰 度 或 纹理 
的 相 邻 子 区 域 求 并 集 生 成 区 域 的 一 种 图 像 分 割 技术 。 

Registered images， 已 配 准 图 像 同一 景物 的 两 幅 (或 以 上 ) 图 像 已 相互 
调 准 好 位 置 ， 从 而 使 其 中 的 物体 具有 相同 的 图 像 位 置 。 

Resolution ， 分 辨 率 一 一 (1) 在 光学 中 指 可 分 辨 的 点 物体 之 间 最 小 的 分 离 
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FERS; (2) 在 图 像 处理 中 ， 指 图 像 中 相 邻 的 点 物体 能 够 被 分 辨 出 的 程度 。 

Scene ,场景 一 一 客观 物体 的 一 种 特色 布局 。 

Sharp， 清 晰 一 一 关于 图 像 细 节 的 易 分 辨 性 。 

Sharpening， 锐 化 一 一 用 以 增强 图 像 细 节 的 一 种 图 像 处 理 技术 。 

Smoothing, 平滑 一 一 降低 图 像 细 节 幅 度 的 一 种 图 像 处 理 技 术 , 通常 用 于 
降 噪 。 

Statistical pattern recognition ， 统 计 模 式 识 别 一 一 基于 概率 统计 理论 ， 将 目 
标 赋 予 模式 类 的 一 种 模式 识别 方法 

Structural pattern recognition， 结 构 模 式 识别 一 一 为 描述 和 分 类 目标 ,将 目 
标 表示 为 基 元 及 其 相互 关系 的 一 种 模式 识别 方法 。 

Syntactic pattern recognition， 句 法 模式 识别 一 一 采用 自然 或 人 工 语言 模式 
定义 基 元 及 相互 关系 的 一 种 结构 模式 识别 方法 。 

Synthetic aperture radar， 合 成 孔径 雷达 是 一 种 高 分 辩 率 的 二 维 微波 对 
地 成 像 系统 ， 能 够 全 天 候 工作 ， 有 效 地 识别 伪装 和 穿 透 掩盖 物 。 

System, A 对 输入 作出 响应 ， 并 生成 输出 。 

Texture， 纹 理 一 一 在 图 像 处 理 中 ， 表 示 图 像 中 灰 度 幅度 及 其 局 部 变化 的 空 
间 组 织 的 一 种 属性 。 

Threshold, ， 阔 值 一 一 用 以 产生 二 值 图 像 的 一 个 特定 的 灰 度 (临界 值 ) 。 

Thresholding， 二 值 化 一 一 由 灰 度 图 像 产生 二 值 图 像 的 过 程 ， 一 般 如 果 输 入 
像素 的 灰 度 值 大 于 给 定 的 阔 值 则 输出 像素 赋值 为 1， 否 则 赋值 为 0。 

Virtual Reality， 虚 拟 现实 一 一 又 称 灵 境 技术 或 人 工 环境 ， 英 文 简称 VR。 是 
利用 电脑 产生 一 个 三 维 空间 的 虚拟 世界 ， 提 供 使 用 者 关于 视觉 、 听 觉 、 触 觉 等 
感官 的 模拟 ， 让 使 用 者 如 同 身 临 其 境 一 般 。 

Watershed algorithm， 分水岭 算法 一 一 一 种 基于 拓扑 理论 的 数学 形态 学 的 
图 像 分 割 方法 。 
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